6个顶级大模型实测：智能体里到底该用谁？

作者：6个顶级大模型实测：智能体里到底该用谁？

DeepSeek V4 刚发布，跑分都很好看，但实战到底什么水平？正好这两周 GPT 5.5、Opus 4.8、Kimi K2.6 也都更新了，加上智谱 GLM 5.1，一口气凑齐 6 个前沿模型。很多朋友纠结智能体里该用哪个，今天就从【价格 · 速度 · 质量】三个角度真实横评一波怎么测的让智能体抓 Hacker News Top 100 热帖 → 挑 2~4 条话题 → 查背景 → 生成图片 → 用 HyperFrame 做一条 30~60s 中文视频报告。全流程模型自主规划，单次上百次工具调用，推理强度拉满。用极简框架 PI，强弱模型都藏不住。结论先放这 · 第一梯队：Opus 4.8 ＆ GPT 5.5（排版内容都在线，贵有贵的道理） · 第二梯队：DeepSeek V4 Pro 赢内容／ GLM 5.1 赢排版（各做到一半） · 第三梯队：DeepSeek V4 Flash ＆ Kimi K2.6（都有硬伤）价格：国产同价带（0.32~2.29元/百万token），Opus、GPT 直接贵一个数量级。DeepSeek V4 Pro 百万上下文性价比真香。速度：GPT 5.5 最快 16min；GLM 5.1 最慢 44min；Opus 开 x-high 花费最离谱。说回 DeepSeek，稳坐国产第一梯队完全没问题，内容上有时甚至能超 GPT 5.5，只是综合实力跟第一档还差一口气。局限：每个模型只跑了 1 次，随机性大；任务偏视觉+代码。算个不太严谨的参考，大家理性看～详细打分、每个模型优缺点都在图里，点赞收藏慢慢看👍 #DeepSeek #GPT #Claude #GLM #大模型 #AI智能体 #Agent #模型横评 #AI工具 #人工智能

文章详情

6个顶级大模型实测：智能体里到底该用谁？

推荐阅读