上传文档、查看解析结果、管理切片
文档是知识库的内容来源。上传后,系统自动完成解析、切片、向量化与索引构建。
进入知识库详情页,切换到 切片详情 Tab 查看和管理所有切片。每条切片展示:
点击 创建切片,按需填写:
提交后切片自动完成向量化,随即可被检索命中。
每条切片支持以下操作:
文档列表中每条文档提供以下操作:
文档管理相关 API:
导入数据
1
进入知识库详情页
在 知识管理 页面中点击目标知识库名称。
2
点击上传数据
点击文档列表上方的 上传数据,进入导入流程。
3
选择数据来源
选择连接器(默认为"默认文件连接器"),然后选择数据来源:
其他配置项:
| 数据来源 | 说明 |
|---|---|
| 上传文件(默认) | 页面上传本地文件,单次最多 50 个。格式与大小限制见支持的格式 |
| 选择类目 | 从连接器的文件类目中选择,将类目下所有文件导入并构建索引,支持自动同步 |
| 选择文件 | 从连接器类目下逐个勾选文件导入,单次最多 50 个 |
- 配置类目(必填):选择文件归属的类目,或点击 新增类目 创建
- 新增标签(可选):为本次导入的文件添加标签,每个标签最多 32 个字符
4
配置索引设置
点击 下一步,选择切片方式和分段参数:
| 切片方式 | 说明 |
|---|---|
| 智能切分(默认) | 通用文档上的较优切分方法,多数文档可获得较佳检索效果 |
| 按长度切分 | 适合对 Token 数量有严格要求的场景 |
| 按页切分 | 适合每页传达独立主题的文档 |
| 按标题切分 | 适合用标题划分独立主题的文档 |
| 按照正则切分 | 依据自定义正则表达式切分文本 |
| 按照符号切分 | 根据文档中的特定标识符切分 |
| 参数 | 默认值 | 范围 | 说明 |
|---|---|---|---|
| 最大分段长度 | 600 | 10–6000 | 单切片的最大 token 数 |
| Metadata 抽取 | 关 | 开/关 | 自动提取文档元数据 |
| Excel 表头拼装 | 关 | 开/关 | 将 Excel 表头信息拼入切片内容 |
5
完成导入
点击 完成,系统自动执行解析、切片与索引构建。文档状态变为 解析完成 即可在检索中命中。
支持的格式
| 类型 | 扩展名 | 大小限制 | 说明 |
|---|---|---|---|
| 文档 | .doc, .docx, .ppt, .pptx, .pdf | ≤ 150 MB 或 1000 页 | 电子 PDF 直接提取;扫描件自动 OCR |
| 表格 | .xls, .xlsx | 建议 10 MB 以内,10 万行以内 | 按行切片,首行作字段名 |
| 图片 | .png, .jpg, .jpeg, .bmp, .gif | 单图 ≤ 20 MB,最短边 > 15px,长边 < 8192px,长宽比 < 50 | 用于图文混排场景 |
| 纯文本 | .md, .txt, .html | 建议 10 MB 以内 | Markdown 按标题切分;HTML 自动剥离 script / style |
文档状态
| 状态 | 含义 | 处理建议 |
|---|---|---|
| 上传中 | 文件传输中 | 等待 |
| 解析中 | 提取文档结构与文本、切片、生成向量 | 等待 |
| 解析完成 | 索引构建完成,可被检索 | 无需操作 |
| 失败 | 解析或索引构建出错 | 查看错误详情,修复后重新上传 |
切片管理
进入知识库详情页,切换到 切片详情 Tab 查看和管理所有切片。每条切片展示:
- 编号与字符数
- 切片内容预览
- 所属文档
- 启用/禁用开关
创建切片
点击 创建切片,按需填写:
| 字段 | 约束 | 说明 |
|---|---|---|
| 所属文档 | 必填 | 从已上传文档中选择归属 |
| 切片标题 | 0–50 字 | 用于切片列表展示 |
| 图片 | 支持 png / jpg / bmp / gif,单图 ≤ 20 MB | 可选,用于图文混排切片 |
| 切片内容 | 必填,0–6000 字 | 切片正文 |
切片操作
每条切片支持以下操作:
| 操作 | 说明 |
|---|---|
| 切片详情 | 查看切片完整内容与属性 |
| 查看原文 | 定位切片在原始文档中的上下文 |
| 删除 | 立即从索引中移除,不可恢复 |
| 启用/禁用 | 通过开关控制该切片是否参与检索 |
文档操作
文档列表中每条文档提供以下操作:
| 操作 | 说明 |
|---|---|
| 查看切片 | 跳转到该文档的切片详情 |
| Meta信息 | 查看或编辑文档的元数据信息 |
| 标签 | 为文档添加或管理标签(在"更多"菜单中) |
| 删除 | 删除文档及其所有切片,不可恢复(在"更多"菜单中) |
| 批量操作 | 通过顶部按钮勾选多个文件后批量处理 |