文章详情

专注互联网科技,赋能企业数字化发展

互联网上的公开数据就可以随便用吗?

作者:互联网上的公开数据就可以随便用吗?

今天,国家网信办发布了《中国个人信息保护报告2025》,翻到典型案例部分,有个“某平台不当使用律师信息被判侵权”的案情吸引了我,当时我第一反应就是:不会是法先生吧?结果还真是。 好早以前,我的信息也被这个网站“收录”过。头像、执业证号、所在地,全给你整得明明白白,甚至还帮我算了个“胜诉率”,就挺离谱的。当时流行一种说法:“律师信息本来就是公开的,为什么不能用?”乍一听好像有点道理。司法局网站公示律师信息,裁判文书网上公开,这些确实都是事实。平台的逻辑无非就是:我爬的是公开数据,整理整理,怎么还成侵权了?但法院在这个案子里画了一条很关键的线:公开,不等于可以随便用。 重点是你拿去干什么,怎么干的。 法先生的问题,根本不是“收集”那么简单: · 没告知本人,擅自给律师搭了个“橱窗” · 用算法算“胜诉率”“收费标准”,数字标得跟真的一样 · 页面还写着“请勿私下与律师达成合作”,把案源往自己平台截 这哪是什么信息整理,这分明是把别人的职业身份包装成商品,放到自己店里来卖。你说这还能叫“合理使用”吗?反正我是说服不了自己。 顺着这个思路,我又想到一个跟AI有关的问题。这两年大模型特别火,很多AI公司都在干嘛?把互联网上能爬的公开数据全都扒下来,拿去训练。数据公开吗?公开。那就能随便用吗?答案真没那么简单。 法先生案其实给了一个判断方向:尺度不在于“数据是不是公开”,而在于处理的目的和方式合不合理。 拿公开数据做匿名化的统计分析,可能ok。但拿公开数据给具体的人画像、打分、贴标签,还拿这个去左右别人对他的判断——这就已经踩线了。 放到AI场景里也一样。网上的公开文章、图片、代码,拿去训练通用模型,这是一回事。但如果生成的内容,能精准定位到某个人,把他不想被拼凑的信息还原出来——那性质就彻底变了。 公开数据的边界到底在哪?我自己的体会是:数据可以是公开的,但人的权利不是。一个律师的公开执业信息,是为了接受社会监督、方便当事人查询,不是为了被哪个平台抓去当免费劳动力,直接挂上货架。AI时代也一样,我们留在网上的痕迹,不该变成被人随意采摘的果子。 一点随想,随手记下。你们怎么看? #个人信息保护#AI数据训练#公开数据

返回新闻列表