大模型写文献调研报告，差距对比结果

作者：大模型写文献调研报告，差距对比结果

上周用Claude Code（LLM Plan）、Codex、Claude Code（DeepSeekV4Pro，/effort xhigh，1m上下文）三个模型，基于awesome-llm-paper-wiki这个skills对2️⃣个Q1期刊生成调研报告，期刊1测试了5️⃣0️⃣篇论文，期刊2测试了1️⃣0️⃣0️⃣篇论文。一句话总结就是：Codex➕Claude Code（DeepSeekV4Pro）组合使用效果最好。图片1-3是测试报告核心信息图，图片4是完整版报告图。 📊 **整体表现评估** **🥇 Codex** - 审计能力最强 - 双年份追踪 + 逐条排除原因，证据链完整到离谱 - 引用最规范（DOI+URL+源路径全齐） - 两份期刊表现最均衡 **🥈 CC+DeepSeekV4Pro** - 分析粒度最细（2个报告花了约1200w Token，缓存命中约92%，费用约1.4元） - 期刊报告子章节丰富，分析粒度很细 - 唯一用多级编号体系的模型，导航性拉满 - 投稿建议最实用（直接给6维机会矩阵表） **🥉 CC+LLM Plan** - 表现极不稳定 - 期刊1（50篇文献）报告质量中上，趋势分析很到位 - 但期刊2（100篇文献）报告直接翻车：把2026年论文标记成1941年、DOI全空、100篇里藏着重复记录没发现... ⚠️ **几个致命差异** 1️⃣ **审计能力**：Codex会告诉你「我排除了哪几篇、为什么排除」；CC的任何模型不记录，对于报告里的重复论文也没标 2️⃣ **引用完整度**：Codex > CC+LLM Plan（但论文数量变多以后会拉胯）> CC+DeepSeekV4Pro（缺URL） 3️⃣ **稳定性**：Codex和DeepSeek两份报告质量均衡；CC+LLM Plan碰到100篇的大论文集直接崩了，报告只有160行（正常应该400+） 💡 **一句话总结** Codex➕Claude Code（DeepSeekV4Pro）组合使用效果最好。先用Codex生成一版期刊报告，然后CC+DeepSeekV4Pro再次生成一版期刊报告，然后让Codex把两版整合一下，重点是把分析粒度补完整。 #AI工具 #大模型 #codex #deepseek #测评 #论文 #研究生日常 #claude #文献调研 #学术工具

文章详情

大模型写文献调研报告，差距对比结果

推荐阅读