Skip to main content
数据接入

创建知识库

选择知识库类型与使用场景,配置解析与切片策略

知识库是 RAG 平台的核心实体,将一组文档、切片、嵌入与索引配置组织在一起,对外提供检索与问答能力。

知识库类型

创建时需要选择知识库类型,不同类型对应不同的数据和检索方式:
类型适用数据检索方式说明
文档搜索PDF / Word / Markdown / HTML / Excel向量 + 关键词混合构建文档、文件、图片、Excel 混合型索引
数据查询CSV / Excel / RDS 表格自然语言转 SQL基于数据表结构查询,NL2SQL 方式查询表头与列头
图片问答商品图 / 设计稿多模态 Embedding以图片索引为主,支持图片搜索和图文问答
音视频搜索录屏 / 培训视频转写 + 片段定位对音视频内容融合理解与智能提炼

使用场景

知识库类型选择文档搜索时,需要进一步选择使用场景。不同场景决定了检索和回答的策略:
场景说明
基础文档问答搜索并召回文档切片,由模型直接生成答案
图文并茂回复在文档搜索基础上自动排版与配图,生成图文回复
视觉理解(富文本文档)无需切片,大模型直接理解视觉信息丰富的文档与图片
极速问答面向高度结构化或简单文档,提供极速低延时问答
其他知识库类型(数据查询、图片问答、音视频搜索)没有使用场景选项。
知识库类型与使用场景选择
左侧选择知识库类型,选中文档搜索后右侧展示四种使用场景;其他类型无需选择场景。

控制台创建

1

进入知识管理

登录控制台,进入 数据接入 → 知识管理,点击右上角 创建知识库
2

填写基础信息

字段必填说明
名称1–20 字,业务空间内唯一
描述不超过 200 字,用于辅助筛选
知识库类型文档搜索 / 数据查询 / 图片问答 / 音视频搜索
使用场景基础文档问答 / 图文并茂回复 / 视觉理解 / 极速问答
3

导入数据

选择数据来源:
数据来源说明
上传文件页面上传文件,一次最多 50 个,单个不超过 150 MB
选择类目从连接器的文件类目中导入,支持自动同步
选择文件从连接器类目下选择指定文件导入
支持的格式:PDF / DOCX / XLSX / PPTX / TXT / MD / HTML / CSV 等。
4

选择解析方式

默认使用默认设置,系统根据文件类型自动选择合适的解析方式,多数场景无需调整。如需针对不同格式单独配置,点击自定义设置,可选的解析方式包括:
解析方式说明适用场景
电子文档解析标准文本提取格式规整的电子文档
文档智能解析版面级 OCR + 结构恢复扫描件、复杂排版
大模型文档解析调用大模型理解文档结构非标格式文档
Qwen-VL 解析视觉语言模型图文混排文档
音视频解析语音转写 + 时间戳定位音视频文件
5

配置索引设置

参数默认值说明
切片方式智能切分另可选按长度 / 按页 / 按标题 / 按正则 / 按符号切分
最大分段长度600取值范围 10–6000
向量模型text-embedding-v4中英文语义向量模型
向量存储平台存储另可选 ADB-PG 自购引擎
详见切片与向量化
索引设置
排序模型、TopK、相似度阈值等检索参数在检索服务中配置,详见知识检索
6

完成创建

点击 创建知识库,系统自动完成解析、切片、向量化与索引构建。知识库状态变为 已就绪 即可检索,处理进度可在文档列表查看。

API 创建

通过 创建知识库并导入 接口,可以一步完成创建知识库和提交数据导入任务:
curl -X POST https://{workspaceId}.cn-beijing.maas.aliyuncs.com/api/v1/indices/rag/index/create_v2 \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "my-knowledge-base",
    "structureType": "unstructured",
    "sinkType": "BUILT_IN",
    "sourceType": "DATA_CENTER_CATEGORY",
    "embeddingModelName": "text-embedding-v4",
    "chunkSize": 600,
    "source_ids": ["cate_xxx"]
  }'
切片策略创建后可调整,但调整嵌入模型会触发全量重建索引。完整的容量上限见容量与限制
知识库创建完成后,继续上传文档