现在大模型越来越多,作为科研小白,到底选哪个写论文呢。于是我跑了一早上:8个模型,每个写不同主题的综述,每个主题各写6篇,加起来96篇。然后让 opus-4.8 和 gpt-5.5 轮流盲审,按学术界那套规范化标准打分(SummEval 四维度 + G-Eval 打分),每篇都打两次分取平均。 最后的结论:如果不考虑性价比,最好用的显而易见是 opus 和 gpt;紧跟其后的就是 MiniMax-M3、glm 这些国产模型。M3 才刚出,能做到这个成绩,也在情理之中了。 #大模型 #AI测评 #科研工具 #论文 #国产大模型 #科研 #资料整理