RUC百事通 · 校园 RAG 智能体

面向中国人民大学的多源信息整合与检索增强生成(RAG)系统:统一接入树洞、公告、教务网与文档,让「去哪儿找信息」不再成为问题。

面向:同学 / 老师 / 教务 技术栈:Flask + DeepSeek + Qwen ReRank 状态:内部实验中

项目背景与目标

RUC 的信息分散在树洞、公众号、官网和 Excel 表格里。我们希望用一套可控的 RAG 智能体,把这些信息「收拢」到一个入口。

🧠
痛点:碎片化与高成本
  • 信息太散:同一个问题往往要在树洞、历史消息、学院官网和 PDF 里来回翻找。
  • 政策难读懂:培养方案多为几十页的长 PDF,手机上查阅「具体条款 + 页码」非常痛苦。
  • 重复劳动:推免条件、选课建议等同类问题每学期都在重复提问。
🎯
目标:One Entry, All Answers
  • 统一入口:只需记住一个入口,无需纠结去哪个公众号搜。
  • 有据可查:答案附带树洞链接、PDF 页码或官网原文,拒绝幻觉。
  • 官方对齐:优先信源为教务处与培养方案,树洞经验仅作补充。
  • 低耦合:增/改一个数据源(如新增一个学院通知),不必重构整个系统。

能力一览

系统采用「Planner - Worker」架构,智能体根据问题类型动态调用不同的数据源工具。

📚
数据源整合
  • 树洞 / 小喇叭:采集清洗后打标,支持按话题、情绪检索。
  • 微信公众号:定时抓取学校数十个公众号信息,提取最新消息
  • 学院公告:目前支持商学院、财金、经院官网学生事务公告。
  • 教务处:基于站内搜索接口抓取通知、办事指南与规章。
  • 选课指南:聚合课程评价与老师评分。
  • 外部工具:天气 API、校历数据与 Bing 搜索。
🧩
Agent 核心逻辑
  • 多轮规划:DeepSeek 按 Planner → Tool → Observation 模式执行。
  • 混合重排:Qwen TextReRank 对多路召回结果进行跨源打分。
  • 严格 RAG:仅基于检索到的 Context 生成回答,禁止模型靠“回忆”答题。
  • 拒答机制:关键信息缺失时显式提示“数据不足”。

典型使用场景

我们重点对齐了以下高频场景,以确保系统的实用性。

👩‍🎓
面向在校同学
“2025版金融专硕培养方案有啥变化?” 调用 PDF 解析工具对比版本,摘要差异点。
“大二下想保研应该怎么选课?” 综合选课评价 + 往届保研贴经验。
“下周哪天适合搬宿舍?” 查天气预报 + 查校历考试安排。
🏫
面向老师/行政
“最近关于宏观经济学课程的反馈如何?” 聚合树洞吐槽与课程评价系统数据。
“学生最常问的转专业问题有哪些?” 分析历史对话日志与高频检索词。