基于现有的系统架构(React + NestJS + Langchain + Elasticsearch),要构建一个能够“基于知识库提问、根据回答打分、最终评估知识掌握程度”的智能体,这在 AI 领域属于出典型的 AI Tutor / AI Examiner(AI 导师/考官) 场景。
为了实现高度可控、可干预且支持复杂多轮状态流转的对话互动(如追问、动态调整问题难度等),采用 LangGraph 作为整个后端 Agent 的编排核心是目前的最佳实践。
以下是详细的需求分析、架构设计与实施建议:
一个完整的评估闭环应该包含以下四个阶段:
LangGraph 的核心思想是将 LLM 的推理流程转化为状态机(State Machine)和有向无环/有环图(Graph)。在这里,我们将各个细分任务的 Agent 定义为图中的节点(Nodes),通过边(Edges)和条件边(Conditional Edges)来完成整个复杂流程的智能编排(Orchestration)。
所有 Agent Node 共享并修改一个全局作用域的 State 对象:
interface EvaluationState {
sessionId: string; // 会话 ID
knowledgeBaseId: string; // 关联的知识库 ID
documentContexts: string[]; // 检索出的前置知识点/文档块
questions: ExamQuestion[]; // 生成的问题列表(含标准答案采分点)
currentQuestionIndex: number; // 当前进行到的题目索引
isCurrentQuestionPass: boolean; // 针对当前题的评估状态(是否通过)
shouldFollowUp: boolean; // 是否需要追问
dialogueHistory: ChatMessage[]; // 人机对话历史
scores: Record<number, number>; // 每道题的得分 { questionIndex: score }
feedbacks: Record<number, string>; // 每道题的点评
finalReport?: string; // 最终评估报告
}
我们将不同职责的 Agent 封装成独立的图节点。
Agent A: QuestionGenerator (出题节点):
State.questions,初始化 currentQuestionIndex = 0。Agent B: Interviewer (提问/引导节点):
State.questions 或追问历史中组织话术,并挂起图流程,等待人类回答。Agent C: Grader (评分与判决节点):
State.scores。并负责修改状态流转标志位 shouldFollowUp 和 isCurrentQuestionPass。Agent D: ReportAnalyzer (学情报告生成节点):
LangGraph 通过代码级声明连线逻辑(Routing),极大降低了复杂对话分支的维护成本。这也是弃用传统线性代码,改用 LangGraph 的核心价值所在。
Start -> AgentA (出题) -> AgentB (提问) -> 中断挂起等待人类输入。AgentC (判卷)。AgentC 执行完毕后,LangGraph 不会写死下一步去哪,而是进入一个路由判决函数(Router Logic):
If (shouldFollowUp == true) -> 图重新倒流回 AgentB(但带上了让它引导追问的 Prompt) -> 再次等待输入。If (shouldFollowUp == false && currentQuestionIndex < questions.length - 1) -> 修改 currentQuestionIndex++ -> 走向 AgentB (抛出新题)。If (所有题目已答完) -> 流向 AgentD (总结报告) -> End 结束图。使用 LangGraph 后,可以结合它的 Checkpointer 机制在 SQLite/Postgres 中自动保存图状态(State)。这让你具备了断点续看/续考的天然能力。 您也可以同步将核心指标存储至业务表:
AssessmentSession (评估总表):存分数和图的线程ID (thread_id) 用于恢复会话。AssessmentQuestion & Record (明细表):便于生成 BI 报表。AgentC (判卷) 时,前端马上能以打字机效果看到 AI 思考的反馈:“✅ 概念理解正确,得 8 分。但漏掉了另一个核心条件 XXX...”先跑通最简单的 Pipeline,只包含一题。
@langchain/langgraph。QuestionGenerator 负责从 Elasticsearch 拉取知识库 Chunks 进行组卷。Router 路由逻辑,完成完整的 5-10 题多轮轮询与追问编排。Grader 节点中务必将出题时检索到的文档 Chunk 放在 System Prompt 中作为 Ground Truth(事实基准)。QuestionGenerator 优先去图谱中寻找那些红灯节点进行错题重练。在构建完善的智能体体系时,通常需要综合考量以下四个核心要素。本设计针对这四个维度的完成度如下:
QuestionGenerator(出题引擎)和 Grader(判卷大脑)这两个计算节点进行认知推理。能够从大量检索文本中提取采分点(归纳提取),并能够比对标准答案与员工口语化、非结构化回答之间的语义契合度(演绎判断)。QuestionGenerator 节点中隐式具有 RAG 工具(调用 Elasticsearch 获取文本)。Interviewer (提问/引导节点) 额外的 Tool Calling 能力。例如,如果员工在答题中途反向提问求助(如:“考官,能给我提示一下安全规范的第三大类吗?”),Agent 可以被授权临时调用专门的 RetrievalTool 再去查一次资料,而不是只能死板地等待答案。EvaluationState.dialogueHistory 和 EvaluationState.scores 原生闭环实现;长时记忆(Long-term Memory)则通过 TypeORM 写入业务关系库。将架构改为 LangGraph 后,状态管理的复杂性和不同职责小模型(或小Agent)之间的协作编排(Orchestration),从自己苦写大量 if-else 或微服务 RPC 退化为了直观的、声明式的图流转。这能够完美匹配“因材施教”、“多角色评委苏格拉底式追问”的高级 AI 导师形态。并且在这个架构底座上,认知、规划、工具和记忆这四大能力组件都可以被模块化地插拔与增强。
推荐第一步:
从新建 server/src/assessment 模块开始,编写一个基于 @langchain/langgraph 的测试脚本,定义 State 接口并直接写死伪造的题目数据,通过控制台来模拟跑通最基础的认知与条件规划流!