本来打开Claude只是想对比下 DeepSeek 和 MiniMax 的模型参数和应用场景对比,直接用 anysearch 搜了一轮,也是测试一下昨天新装的技能到底好不好用。 结果其中一项对比是:DeepSeek 上下文 164K,还不如MiniMax。我差点就信了,但隐约记得前段时间刷到过——DS 的上下文好像已经到 1M 了?翻出官方文档一看,果然,搜出来的是 V3 的数据,V4早就是百万级了。 那一瞬间的心情:这玩意儿搜是能搜,但如果你没提前"恰好刷到过正确答案",它说啥你就信了。 冷静下来复盘,原版 anysearch 的问题很赤裸: - 所有查询一视同仁,不区分你搜的是"今天的价格"还是"永恒的定义" - 不检查信息发布时间,三年前的旧数据当最新结果喂给你 - 不标注来源可信度,官方公告和匿名论坛帖一个待遇 - 多个来源数据打架?直接随机选一个输出 这就不是搜索快慢的问题了,是搜出来的东西能不能信的问题。 于是花了大半天重构了整个技能。先做了一件事——把搜索内容按领域分了五类: 1.精准数据(参数/价格/规格) 2.知识(原理/概念/语法 ) 3.新鲜经验(报错/教程/新闻) 4.经验参考(推荐/案例/灵感) 5.实时感知(攻略/评测/附近) 不同领域匹配不同的搜索策略和保质期——比如价格类数据 7 天过期,知识类可以撑 90 天。 有了这套骨架,再往上加了三个硬性输出要求: 可溯源 —— 每条数据必须附带来源链接和级别(L5 官方一手 → L1 未知来源),点链接就能验证 可置信 —— 关键数据至少两个独立来源交叉确认,打架的数据标注"争议",降置信度,而不是假装没看见 有时效 —— 过期信息自动标警告,来源连续验证通过够多次,保质期自动延长 代价是多消耗了一些 token和几秒钟的处理时间。但换来的是一次搜索就能拿到经得起推敲的数据,而不是搜完还要自己一个个点开验证。 搜得慢一点没问题,搜得假才是致命的。 #claude #AnySearch #skills优化