Skip to main content
知识服务

知识问答

基于大模型的流式 RAG 问答服务

知识问答服务基于大模型结合知识检索能力,支持绑定多个知识库,自动检索相关内容并生成自然语言回答。通过控制台创建和配置问答服务,发布后可通过 API 集成到应用中。

创建问答服务

1

进入知识问答页面

登录控制台,进入 知识服务 → 知识问答
2

创建服务

点击右上角 创建问答服务,在弹窗中填写:
  • 服务名称(必填,最多 40 个字符)
  • 描述信息(可选,最多 200 个字符)
点击 确认 完成创建。
3

配置模型与提示词

创建成功后自动进入配置页面:
  • 模型:选择生成回答的大模型(如 qwen3.6-plus),点击模型右侧的 设置 图标可配置 temperature 和 enable_thinking 参数
  • 提示词(可选,最多 500 个字符):指导模型的回答风格和行为
4

选择检索模式

选择检索策略,见下方检索模式说明
5

绑定知识库

点击 + 添加,绑定一个或多个知识库(最多 15 个)。开启优先级开关后,可通过拖拽调整知识库排序,排序越靠前的知识库检索结果优先级越高。如需为单个知识库设置独立参数,点击知识库右侧的展开图标,展开该知识库的配置面板,见下方知识库独立配置
6

配置生成控制

根据需要启用文件预解析、拒答、防泄漏等生成控制参数,见下方生成控制参数
7

测试问答

在右侧的调试窗口中输入问题,查看模型生成的回答、引用来源和检索过程。支持上传附件(需开启文件预解析)。
8

发布

配置完成后,点击右上角 发布。发布后可通过 API 调用该问答服务。
  • 已创建至少一个知识库,且知识库中已有解析完成的文档。
  • 如需使用多知识库联合问答,各知识库须位于同一业务空间下。

检索模式

模式工作方式适用场景
极速单轮检索后直接生成回答,支持 Query 改写开关简单明确的问题、对响应速度敏感的场景
多轮智能检索基于大模型进行多轮规划搜索(Agentic),自动进行意图识别、Query 改写和知识库路由,可配置 ReAct 最大轮次复杂问题、模糊问题、需要跨库综合回答的场景
点击检索模式下拉框右侧的 设置 图标可配置检索模式的高级参数。

知识库独立配置

点击知识库右侧的展开图标,可配置该知识库的独立检索参数:
参数取值范围说明
Query 改写开/关对用户输入进行优化改写,提升检索效果。极速模式下通过此开关控制;多轮智能检索模式下由 Agent 自动改写
初步向量检索 TopK1~100向量检索阶段初步召回的切片数量
初步关键词检索 TopK1~100关键词检索阶段初步召回的切片数量
排序模型qwen3-rerank 等 / 不使用模型对该知识库的召回结果独立排序。纯文本知识库可选 qwen3-rerank 系列;多模态知识库可选 qwen3-vl-rerank
排序模型模式问答模式 / 相似模式问答模式按 QA 匹配度排序;相似模式按语义相似度排序。仅在排序模型开启时可用
相似度阈值0.01~1.0过滤排序后分数低于阈值的切片。值越高结果越精确,但可能遗漏相关内容
最大召回数量1~20该知识库排序后返回的切片数量
标签过滤根据文档标签过滤检索范围。输入标签后回车确认,或从下拉列表中选择已有标签
不同知识库类型展示的参数有所不同。文档搜索类型展示全部参数;图片问答等多模态类型不展示 Query 改写和 TopK 参数。

生成控制参数

参数说明
文件预解析开启后,可在调试窗口通过附件按钮上传文件(包括图片和文档)进行问答。提供两种解析模式:全文引用(解析完整内容作为上下文)和切片检索(将文件切片后结合知识库检索)
拒答开启后,当检索结果不足以回答问题时,模型拒绝回答并返回自定义的拒答话术
防泄漏开启后,防止知识库原文在回答中被直接泄漏,检测到可能泄漏时返回自定义的防护回复
多模态回复开启后,模型回答中会包含知识库中的图片等多模态内容
引用开启后,模型回答中展示引用来源,标注回答内容出自哪个文档

API 调用

知识问答通过 chat 接口 调用,返回 SSE 流式响应:
curl -X POST https://{workspaceId}.cn-beijing.maas.aliyuncs.com/api/v2/apps/bailian-rag-agent/knowledge/chat \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "input": {
      "messages": [
        {"role": "user", "content": "切片策略怎么选?"}
      ]
    },
    "parameters": {
      "result_format": "message",
      "incremental_output": true
    }
  }'

SSE 事件类型

问答响应按以下顺序返回事件:
事件说明
tool_calling开始调用知识库检索
tool_return检索结果返回,包含命中切片
plan_startplanningplan_end生成计划阶段
generation_startgeneratinggeneration_end流式生成回答

多轮对话

平台不保存对话状态,每次请求需传入完整 messages 历史。建议:
  • 限制历史长度(最近 10 轮),避免超出模型上下文窗口
  • 检索时仅基于最新一条 user message,降低噪声
创建问答服务后,可以在服务渠道中查看接入方式,通过 API / MCP / CLI 等方式集成到应用中。