理解 RAG、切片、嵌入、索引与检索的工作原理
RAG 是什么
RAG(Retrieval-Augmented Generation,检索增强生成)是一种把检索系统与大模型结合的技术。用户提问时,系统先从知识库检索相关片段,再将片段与问题一起送入大模型,生成有依据的回答。
处理链路
| 阶段 | 作用 |
|---|---|
| 解析 | 识别内容中的标题、段落、表格、图片与公式,结构化存储 |
| 切片(Chunking) | 将内容拆分为可检索的小片段,通常 256–4096 token |
| 向量化(Embedding) | 把文本转为向量表示,用于语义匹配 |
| 索引(Index) | 存储切片与向量,支持快速搜索 |
| 检索(Retrieval) | 根据查询返回最相关的 Top-K 片段 |
| 重排(Rerank) | 对初步召回结果二次排序,提升相关性 |
| 生成(Generation) | 大模型基于检索片段生成最终回答 |
知识库类型
| 类型 | 适用数据 | 检索方式 | 典型场景 |
|---|---|---|---|
| 文档知识库 | PDF / Word / Markdown / HTML | 向量 + 关键词混合 | 产品手册、合同模板、内部 Wiki |
| 数据知识库 | CSV / Excel / RDS 表格 | 自然语言转 SQL 查询 | 订单数据、库存报表 |
| 图片知识库 | 商品图 / 设计稿 / 海报 | 以图搜图、图文问答 | 图片搜索、视觉问答 |
| 音视频知识库 | 会议录屏 / 培训课程 | 语音转文本后检索 | 视频内容检索 |
关键术语
| 术语 | 说明 |
|---|---|
| 知识库 | 一组文档的逻辑集合,共享切片、嵌入与索引配置 |
| 文档 | 上传或同步进知识库的原始内容,可以是文件、网页或数据库记录 |
| 切片(Chunk) | 文档被拆分后的最小检索单元 |
| Top-K | 检索返回的片段数量,常用值 3–10 |
| 相关性分数 | 检索片段与查询的语义相似度,范围 0–1 |
| 数据连接器 | 外部数据源的接入通道,如 OSS、MySQL、语雀等 |
| 检索服务 | 多知识库联合检索的配置单元,支持独立参数调优 |
| 问答服务 | 在检索基础上叠加大模型生成,返回带引用的自然语言回答 |
| 业务空间 | 资源隔离单元,同一账号下可创建多个空间 |
检索模式
| 模式 | 工作方式 | 适用场景 |
|---|---|---|
| 极速模式 | 单轮直接检索,延迟最低 | 简单事实性问题 |
| 多轮智能模式 | 模型驱动多轮规划搜索,自动改写查询 | 复杂问题、多步推理 |