Skip to main content
数据接入

文档管理与解析

上传文档、查看解析结果、管理切片

文档是知识库的内容来源。上传后,系统自动完成解析、切片、向量化与索引构建。

导入数据

1

进入知识库详情页

知识管理 页面中点击目标知识库名称。
2

点击上传数据

点击文档列表上方的 上传数据,进入导入流程。
3

选择数据来源

选择连接器(默认为"默认文件连接器"),然后选择数据来源:
数据来源说明
上传文件(默认)页面上传本地文件,单次最多 50 个。格式与大小限制见支持的格式
选择类目从连接器的文件类目中选择,将类目下所有文件导入并构建索引,支持自动同步
选择文件从连接器类目下逐个勾选文件导入,单次最多 50 个
其他配置项:
  • 配置类目(必填):选择文件归属的类目,或点击 新增类目 创建
  • 新增标签(可选):为本次导入的文件添加标签,每个标签最多 32 个字符
4

配置索引设置

点击 下一步,选择切片方式和分段参数:
切片方式说明
智能切分(默认)通用文档上的较优切分方法,多数文档可获得较佳检索效果
按长度切分适合对 Token 数量有严格要求的场景
按页切分适合每页传达独立主题的文档
按标题切分适合用标题划分独立主题的文档
按照正则切分依据自定义正则表达式切分文本
按照符号切分根据文档中的特定标识符切分
参数默认值范围说明
最大分段长度60010–6000单切片的最大 token 数
Metadata 抽取开/关自动提取文档元数据
Excel 表头拼装开/关将 Excel 表头信息拼入切片内容
5

完成导入

点击 完成,系统自动执行解析、切片与索引构建。文档状态变为 解析完成 即可在检索中命中。

支持的格式

类型扩展名大小限制说明
文档.doc, .docx, .ppt, .pptx, .pdf≤ 150 MB 或 1000 页电子 PDF 直接提取;扫描件自动 OCR
表格.xls, .xlsx建议 10 MB 以内,10 万行以内按行切片,首行作字段名
图片.png, .jpg, .jpeg, .bmp, .gif单图 ≤ 20 MB,最短边 > 15px,长边 < 8192px,长宽比 < 50用于图文混排场景
纯文本.md, .txt, .html建议 10 MB 以内Markdown 按标题切分;HTML 自动剥离 script / style

文档状态

状态含义处理建议
上传中文件传输中等待
解析中提取文档结构与文本、切片、生成向量等待
解析完成索引构建完成,可被检索无需操作
失败解析或索引构建出错查看错误详情,修复后重新上传

切片管理

进入知识库详情页,切换到 切片详情 Tab 查看和管理所有切片。每条切片展示:
  • 编号与字符数
  • 切片内容预览
  • 所属文档
  • 启用/禁用开关
支持通过 全部文件 下拉筛选特定文档的切片,或使用搜索框按关键词查找。

创建切片

点击 创建切片,按需填写:
字段约束说明
所属文档必填从已上传文档中选择归属
切片标题0–50 字用于切片列表展示
图片支持 png / jpg / bmp / gif,单图 ≤ 20 MB可选,用于图文混排切片
切片内容必填,0–6000 字切片正文
提交后切片自动完成向量化,随即可被检索命中。

切片操作

每条切片支持以下操作:
操作说明
切片详情查看切片完整内容与属性
查看原文定位切片在原始文档中的上下文
删除立即从索引中移除,不可恢复
启用/禁用通过开关控制该切片是否参与检索

文档操作

文档列表中每条文档提供以下操作:
操作说明
查看切片跳转到该文档的切片详情
Meta信息查看或编辑文档的元数据信息
标签为文档添加或管理标签(在"更多"菜单中)
删除删除文档及其所有切片,不可恢复(在"更多"菜单中)
批量操作通过顶部按钮勾选多个文件后批量处理
删除文档不可恢复。已返回的检索结果不受影响,但后续查询不会再命中已删除文档的切片。

API 管理

文档管理相关 API:
文档上传完成后,调整切片与向量化策略以优化检索质量。