文章详情

专注互联网科技,赋能企业数字化发展

AI真的很不聪明,连基本的数据整理都不行

作者:AI真的很不聪明,连基本的数据整理都不行

之前让几个主流ai做的同一道题,整理宁波2000年-2024年每年入梅、出梅的日期,结果非常惨烈,手工对比结果见图2 . 总的来说—— DeepSeek的准确率是最高的,但是它给的数据来源是最模糊最笼统的; 豆包给的数据也很多,但错误率非常高,不过豆包可以做到逐个数据给出处链接,所以人工可以直接判别它整合的结果是否正确; 文心一言也给了数据出处,但是文字版,难以直接溯源验证,并且它的错误率非常搞; kimi和元宝有大量空缺数据,也不知道它们是怎么好意思给的,难道不判别一下我要求的数据结果应该有多少个吗? . 然后说一下我的手工验证方式,见图8 其实就是以“宁波+出梅”为关键词,搜一下当年6月-8月期间的网页就行了。 因为在出梅的报道下,一定是会提到入梅日期的,并且出梅日期一般就集中在6月下旬到7月上旬,我略微放宽一下区间。 最后探讨一下为啥这个结果对ai来说竟然这么困难—— ① 梅雨期是没有官方的整理和发布渠道的,导致数据来源不怎么稳定(但实际上一般媒体上都有报道,这点ds就发现了) ② 媒体报道喜欢使用日期上的相对词,如“昨日出梅”,如平均x月x日入梅今年晚了x天,需要更熟悉中文习惯的判定方式(这点上几乎所有ai都有被误导的案例) ③ 媒体报道里除了报道当天的出梅入梅日期,往往还提及往年、平均等,在短短一两百字的报道里会出现多个日期,影响ai判断(这点上还是几乎所有ai都有被误导的案例) ④ 梅雨是每年都有,且日期在某个区间内,了解梅雨特点更利于检索和判断,但ai似乎都不会这个前提准备

返回新闻列表