RUC百事通 · 校园 RAG 智能体
面向中国人民大学的多源信息整合与检索增强生成(RAG)系统:统一接入树洞、公告、教务网与文档,让「去哪儿找信息」不再成为问题。
项目背景与目标
RUC 的信息分散在树洞、公众号、官网和 Excel 表格里。我们希望用一套可控的 RAG 智能体,把这些信息「收拢」到一个入口。
痛点:碎片化与高成本
- 信息太散:同一个问题往往要在树洞、历史消息、学院官网和 PDF 里来回翻找。
- 政策难读懂:培养方案多为几十页的长 PDF,手机上查阅「具体条款 + 页码」非常痛苦。
- 重复劳动:推免条件、选课建议等同类问题每学期都在重复提问。
目标:One Entry, All Answers
- 统一入口:只需记住一个入口,无需纠结去哪个公众号搜。
- 有据可查:答案附带树洞链接、PDF 页码或官网原文,拒绝幻觉。
- 官方对齐:优先信源为教务处与培养方案,树洞经验仅作补充。
- 低耦合:增/改一个数据源(如新增一个学院通知),不必重构整个系统。
能力一览
系统采用「Planner - Worker」架构,智能体根据问题类型动态调用不同的数据源工具。
数据源整合
- 树洞 / 小喇叭:采集清洗后打标,支持按话题、情绪检索。
- 微信公众号:定时抓取学校数十个公众号信息,提取最新消息
- 学院公告:目前支持商学院、财金、经院官网学生事务公告。
- 教务处:基于站内搜索接口抓取通知、办事指南与规章。
- 选课指南:聚合课程评价与老师评分。
- 外部工具:天气 API、校历数据与 Bing 搜索。
Agent 核心逻辑
- 多轮规划:DeepSeek 按 Planner → Tool → Observation 模式执行。
- 混合重排:Qwen TextReRank 对多路召回结果进行跨源打分。
- 严格 RAG:仅基于检索到的 Context 生成回答,禁止模型靠“回忆”答题。
- 拒答机制:关键信息缺失时显式提示“数据不足”。
典型使用场景
我们重点对齐了以下高频场景,以确保系统的实用性。
面向在校同学
“2025版金融专硕培养方案有啥变化?”
→ 调用 PDF 解析工具对比版本,摘要差异点。
“大二下想保研应该怎么选课?”
→ 综合选课评价 + 往届保研贴经验。
“下周哪天适合搬宿舍?”
→ 查天气预报 + 查校历考试安排。
面向老师/行政
“最近关于宏观经济学课程的反馈如何?”
→ 聚合树洞吐槽与课程评价系统数据。
“学生最常问的转专业问题有哪些?”
→ 分析历史对话日志与高频检索词。