上周用Claude Code(LLM Plan)、Codex、Claude Code(DeepSeekV4Pro,/effort xhigh,1m上下文)三个模型,基于awesome-llm-paper-wiki这个skills对2️⃣个Q1期刊生成调研报告,期刊1测试了5️⃣0️⃣篇论文,期刊2测试了1️⃣0️⃣0️⃣篇论文。 一句话总结就是:Codex➕Claude Code(DeepSeekV4Pro)组合使用效果最好。图片1-3是测试报告核心信息图,图片4是完整版报告图。 📊 **整体表现评估** **🥇 Codex** - 审计能力最强 - 双年份追踪 + 逐条排除原因,证据链完整到离谱 - 引用最规范(DOI+URL+源路径全齐) - 两份期刊表现最均衡 **🥈 CC+DeepSeekV4Pro** - 分析粒度最细(2个报告花了约1200w Token,缓存命中约92%,费用约1.4元) - 期刊报告子章节丰富,分析粒度很细 - 唯一用多级编号体系的模型,导航性拉满 - 投稿建议最实用(直接给6维机会矩阵表) **🥉 CC+LLM Plan** - 表现极不稳定 - 期刊1(50篇文献)报告质量中上,趋势分析很到位 - 但期刊2(100篇文献)报告直接翻车:把2026年论文标记成1941年、DOI全空、100篇里藏着重复记录没发现... ⚠️ **几个致命差异** 1️⃣ **审计能力**:Codex会告诉你「我排除了哪几篇、为什么排除」;CC的任何模型不记录,对于报告里的重复论文也没标 2️⃣ **引用完整度**:Codex > CC+LLM Plan(但论文数量变多以后会拉胯)> CC+DeepSeekV4Pro(缺URL) 3️⃣ **稳定性**:Codex和DeepSeek两份报告质量均衡;CC+LLM Plan碰到100篇的大论文集直接崩了,报告只有160行(正常应该400+) 💡 **一句话总结** Codex➕Claude Code(DeepSeekV4Pro)组合使用效果最好。先用Codex生成一版期刊报告,然后CC+DeepSeekV4Pro再次生成一版期刊报告,然后让Codex把两版整合一下,重点是把分析粒度补完整。 #AI工具 #大模型 #codex #deepseek #测评 #论文 #研究生日常 #claude #文献调研 #学术工具