A community-driven registry for Claude, Cursor, Windsurf, Cline & more. Not affiliated with Anthropic.
Are you the author? Sign in to claim
一个生产级的深度研究 Agent 系统,从零构建多智能体编排、Red-Blue 对抗降噪、 语义级上下文压缩、跨 Agent 共享记忆四大核心能力,配套 165 次独立实验 + Bootstrap 统计显著性检验的完整评测体系。
大语言模型在单一问答场景表现优异,但在复杂深度研究任务中面临三个核心挑战:
本项目从零构建了一套面向深度研究任务的 Agent 系统,覆盖规划、执行、记忆、对抗、进化、评测全链路。
"如果一个 Agent 只能回答简单问题,那它和搜索引擎有什么区别?"
我们的动机是:让 AI 真正具备"深度研究"的能力——不只是检索信息,而是像人类研究员一样:
| 模块 | 职责 | 核心技术 |
|---|---|---|
| 🎛️ M1 Orchestrator | 多智能体编排与调度 | 自研 asyncio + DAG 执行引擎,9 状态状态机 |
| 🗺️ M2 Planner | 复杂问题拆解 | JSON DAG 动态规划,支持执行中 replan |
| 🗜️ M3 Compressor | 长上下文压缩 | Embedding 语义三级过滤 + TextRank 关键句提取 |
| 🧠 M4 Memory Store | 跨 Agent 共享记忆 | SQLite + numpy 向量索引,去重/矛盾检测/LRU 淘汰 |
| ⚔️ M5 Adversarial Loop | 对抗降噪 | Red-Blue 循环攻击-修复,内置收敛与震荡检测 |
| 🧬 M6 Evolution Engine | 在线自进化 | GRPO 强化学习 + 符号规则学习(预留接口) |
用户 Query
↓
🗺️ Planner 拆解为 DAG 子任务图
↓
🎛️ Orchestrator 按拓扑排序并发调度
↓
🤖 Worker Agents 调用 🔍 搜索 / 📄 论文 / 🌐 网页 工具
↓
🧠 Memory Store 写入中间结果(去重 + 矛盾检测)
↓
🗜️ Compressor 压缩长上下文(L1→L2→L3)
↓
⚔️ Red Agent 攻击 → Blue Agent 修复 → 评分引擎评估
↓
📝 Summarizer 合成最终 Markdown 报告
↓
📤 输出带元信息的结构化研究报告
为什么不用现成的框架?因为深度研究任务需要完全可控的调度逻辑。
asyncio + Semaphore 实现 DAG 拓扑并发执行灵感来自 GAN 的对抗训练思想,但应用于文本质量优化。
关键词匹配会丢失语义,简单截断会丢失关键信息。我们用 Embedding 做语义压缩。
# configs/default.yaml
model:
backend_mapping:
solver: "deepseek" # 强推理
planner: "deepseek" # 结构化输出
red_agent: "mimo" # 稳定、低成本
blue_agent: "mimo"
judge: "mimo"
compressor: "mimo"
.env 驱动,零源码修改接入新后端不做"跑几个例子看看"的评测,做可复现、可量化、有统计显著性的评测。
| 评测层级 | 方法 | 特点 |
|---|---|---|
| 📏 规则指标 | 事实准确率 / 幻觉率 / 引用覆盖率 / 逻辑一致性 | 免费、可复现、零 API 成本 |
| 📚 公共数据集 | HotpotQA 多跳 QA 深度研究变体 | 传统 EM/F1 + 新增语义覆盖度 |
| 🏗️ 自建评测集 | ResearchBench 35 题 × 11 领域 | 含 expected_topics + ground_truth |
| 👨⚖️ LLM-as-Judge | MiMo 5 维度 0-10 分深度评分 | 定性+定量互补 |
| 🥊 Head-to-Head | Agent vs 单轮 LLM 直接对比 | pairwise 更可靠 |
| 📈 统计显著性 | Bootstrap 95% CI + Cohen's d + t-test | 拒绝"随机波动" |
# 1. 克隆项目
git clone https://github.com/qiqihezh/deepresearch-agent.git
cd deep_research_agent
# 2. 创建 uv 虚拟环境并激活
uv venv .venv
source .venv/bin/activate
# 3. 安装核心依赖
pip install -r requirements.txt
# 4. 配置 API Key(复制模板后填入)
cp .env.example .env
# 编辑 .env:填入 DEEPSEEK_API_KEY、BOCHA_API_KEY 等
🎯 单条 Query(单次深度研究)
python scripts/run_single.py \
--query "2024-2025年大模型Agent技术趋势与落地案例研究" \
--config configs/default.yaml
💬 交互式 REPL(支持 Session 继承与连续追问)
python scripts/run_repl.py
# 交互命令: ls / sessions / save / q
🔬 批量实验(全量评测体系,overnight 可跑完)
python scripts/run_all_experiments.py \
--report_file outputs/reports1/report_xxx.md \
--report_query "你的研究问题"
批量实验默认配置:模块消融 5×12 题 + 轮数消融 4×12 题 + 标准评测 35 题 + 领域对比 3×5 题 + Agent vs LLM 3 题 + Judge 1 次 = 165 次独立研究运行
deep_research_agent/
├── 📁 configs/ # YAML 配置中心
│ ├── default.yaml # 全局默认配置
│ ├── agents/ # Agent 行为配置
│ ├── interaction_config/ # 交互层配置
│ └── tool_config/ # 工具层配置
│
├── 📁 src/ # 核心源码(~5000 行)
│ ├── 📁 core/ # 核心运行层
│ │ ├── runner.py # 初始化模块 + 执行完整研究流程
│ │ ├── judge.py # MiMo Judge 统一接口
│ │ └── ablation.py # 消融实验通用框架
│ │
│ ├── 📁 orchestrator/ # 🎛️ M1: 多智能体编排器
│ ├── 📁 planner/ # 🗺️ M2: 自适应规划器
│ ├── 📁 compressor/ # 🗜️ M3: 上下文压缩器
│ ├── 📁 memory/ # 🧠 M4: 共享记忆存储
│ ├── 📁 adversarial/ # ⚔️ M5: 对抗降噪循环
│ ├── 📁 evolution/ # 🧬 M6: 自进化引擎
│ ├── 📁 agents/ # 🤖 Agent 实现
│ ├── 📁 models/ # 🔌 模型路由层
│ ├── 📁 tools/ # 🛠️ 工具层
│ └── 📁 utils/ # 🧰 工具函数
│
├── 📁 evaluation/ # 评测体系(~2000 行)
│ ├── benchmarks/ # 评测集(ResearchBench / HotpotQA)
│ ├── metrics/ # 指标(规则 / Judge / 统计 / 综合)
│ └── analyze_ablation.py # 消融实验结果分析
│
├── 📁 scripts/ # 可执行脚本
│ ├── run_single.py # 🎯 单条 query CLI
│ ├── run_repl.py # 💬 交互式 REPL
│ ├── run_all_experiments.py # 🔬 一键批量实验
│ ├── run_ablation.py # 消融实验独立入口
│ ├── run_benchmark.py # 🥊 Agent vs LLM
│ ├── run_eval.py # 标准评测入口
│ ├── run_judge.py # 👨⚖️ Judge 深度评分
│ └── validate_env.py # 环境配置检查
│
├── 📁 verl/ # veRL 训练框架(GRPO)
├── requirements.txt # 依赖清单(分级安装)
└── README.md # 📖 本文件
| 层级 | 技术 |
|---|---|
| 🐍 语言 | Python 3.11 |
| ⚡ 异步框架 | asyncio |
| 🧠 LLM 后端 | DeepSeek API / MiMo 2.5 Pro / vLLM / OpenAI |
| 🔢 嵌入模型 | sentence-transformers (all-MiniLM-L6-v2) |
| 💾 持久化 | SQLite + numpy 向量索引 |
| 🎓 训练框架 | veRL (GRPO) |
| 🔭 可观测性 | LangSmith |
| 📦 虚拟环境 | uv |
欢迎提交 Issue 和 PR!无论是 bug 修复、功能增强还是文档改进,我们都非常感谢。
MIT © 2025 DeepResearch Agent Contributors
Pocket Flow: Codebase to Tutorial
A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
💻 A curated list of papers and resources for multi-modal Graphical User Interface (GUI) agents.
npx CLI installing 100+ agents, commands, hooks, and integrations in one command