如题,今晚继续进行 DeepSeek-V4-Pro 实测的第二弹:PPT 制作能力。我相信这也是打工人们最关心的一项能力了,上一篇评测是编码能力的评测,DeepSeek 惨败,想看的朋友们可以移步至我主页查看上一篇实测笔记。 我的测试依旧是在较高难度的龙虾场景下进行的。本次的测试任务来自我身边的一位好友,她这两天正好需要进行课程汇报,于是我便拿了她的需求过来进行实测,内容是制作一篇装饰形态研究与实践课程的 PPT,主题为:什么是装饰形态,共计 10 页 。在测试开始前,我依旧是先使用了智谱的 glm-5.1 进行基准测试,用于确认测试难度,可以看到 glm 再一次以又快又稳的表现一次性完成了任务(P2 + P3),交付的结果也是没有任何问题(P4~P8)。 在 glm 成功交付后,我便切换到了 DeepSeek-V4-Pro 开始正式测试。在任务进行中,DeepSeek 的表现依旧令我非常失望:在我向他交代了任务目标以后,他居然在回复了一句「好的」后就直接结束了(P9)!这太夸张了,我之前只有在 MiniMax 上见过这个情况,甚至还特意发过一篇笔记去吐槽。而且 DeepSeek 在后续任务执行过程中也是状况不断,明显缺乏规划,先是错误的创建了一个文件夹,并把 PPT 错误的生成到了这个文件夹里(P10),后来又是多次拼错指令(P11 + P12),甚至还飚了几句英语,硬是一直死磕下去才制作成功,表现的非常不稳定。除此之外,制作速度也是非常的慢,也许是因为这两天的服务器负载压力比较高吧,这个任务硬是做了 15 分钟才做完(P13),中间还多次出现了卡住的情况,属于是又慢又不稳定了。 但是 DeepSeek 在完成后交付的结果竟然还不错(P14 ~ P18),可以看到无论是在内容的丰富度与专业度、排版和审美的舒适度与美观度、甚至是在字体的选择与统一度上,都是很可圈可点的。 总结,经过这两轮测试,DeepSeek-V4-Pro 的优劣已经非常清晰:作为 1.6T 大参数的模型,在世界知识、办公技能、甚至是审美等方面都还可以,但是在编码能力、指令遵循与稳定度等方面的表现就要比 glm 这样的纯编码模型差太多了。如果你的使用需求主要就是以办公场景为主,那么它值得一试! #DeepSeek #deepseek #deepseekv4 #ppt #glm #智谱 #AI人工智能 #ai #openclaw #大模型