Skip to main content
开始使用

核心概念

理解 RAG、切片、嵌入、索引与检索的工作原理

RAG 是什么

RAG(Retrieval-Augmented Generation,检索增强生成)是一种把检索系统与大模型结合的技术。用户提问时,系统先从知识库检索相关片段,再将片段与问题一起送入大模型,生成有依据的回答。

处理链路

阶段作用
解析识别内容中的标题、段落、表格、图片与公式,结构化存储
切片(Chunking)将内容拆分为可检索的小片段,通常 256–4096 token
向量化(Embedding)把文本转为向量表示,用于语义匹配
索引(Index)存储切片与向量,支持快速搜索
检索(Retrieval)根据查询返回最相关的 Top-K 片段
重排(Rerank)对初步召回结果二次排序,提升相关性
生成(Generation)大模型基于检索片段生成最终回答

知识库类型

类型适用数据检索方式典型场景
文档知识库PDF / Word / Markdown / HTML向量 + 关键词混合产品手册、合同模板、内部 Wiki
数据知识库CSV / Excel / RDS 表格自然语言转 SQL 查询订单数据、库存报表
图片知识库商品图 / 设计稿 / 海报以图搜图、图文问答图片搜索、视觉问答
音视频知识库会议录屏 / 培训课程语音转文本后检索视频内容检索
如果不确定选哪种类型,建议从文档知识库开始。

关键术语

术语说明
知识库一组文档的逻辑集合,共享切片、嵌入与索引配置
文档上传或同步进知识库的原始内容,可以是文件、网页或数据库记录
切片(Chunk)文档被拆分后的最小检索单元
Top-K检索返回的片段数量,常用值 3–10
相关性分数检索片段与查询的语义相似度,范围 0–1
数据连接器外部数据源的接入通道,如 OSS、MySQL、语雀等
检索服务多知识库联合检索的配置单元,支持独立参数调优
问答服务在检索基础上叠加大模型生成,返回带引用的自然语言回答
业务空间资源隔离单元,同一账号下可创建多个空间

检索模式

模式工作方式适用场景
极速模式单轮直接检索,延迟最低简单事实性问题
多轮智能模式模型驱动多轮规划搜索,自动改写查询复杂问题、多步推理
接下来在快速开始中创建第一个知识库。