过河拆桥?为防“爬虫”爬取数据训练AI,百度百科屏蔽了谷歌等友商
近日有报道称,爬虫为了防止未经允许的过河谷歌“爬虫”爬取数据用于训练AI,百度百科已经屏蔽了谷歌、拆桥株洲华容新闻网招聘必应等大多数搜索引擎。为防百度啊百度,爬取屏蔽你也学会过河拆桥了?数据商 有网友扒出了百度百科的robots.txt文件,发现允许放行的训练白名单中,只有百度搜索、百度百科搜狗搜索、等友中国搜索(Chinaso)、爬虫YYSpider和宜搜搜索(EasouSpider)几个搜索引擎,过河谷歌而谷歌、拆桥必应、为防株洲华容新闻网招聘微软MSN、爬取屏蔽UC的数据商Yisouspider以及其他搜索引擎的爬虫已被列入了禁止名单。 众所周知,搜索引擎的工作原理,就是依靠“爬虫”到不同的网站上爬取数据,然后展示在自己的搜索结果中。 百度曾经能搜到很多内容,但百度的“爬虫”过于高频地访问网站爬取数据,会对网站的服务器产生巨大压力,影响到了正常运转,会主动选择禁止百度爬取数据。此外,一些网站为了占据用户心智、避免影响广告收入等原因,也会主动选择屏蔽百度的爬虫,这就导致百度越来越难搜到想要东西了。 近几年,AI大模型的快速发展,需要不少用户真实数据进行支撑,而包含百度用户自发编辑的百科内容,绝对是一个不小的数据训练宝库,“人均硕博学历、频繁刚下飞机”的知乎也是同理。但据爆料,知乎已经先百度一步禁止了其他搜索引擎的爬虫,把白名单中的谷歌和必应踢掉,只留下了百度和搜狗。 曾经,百度起家靠的就是爬遍全网的“爬虫”们,把自己爬到了“国服第一”的位置。但现在,想在文心一言上发力的百度却反手禁了其他友商的爬虫,把车门给焊死了,谁都别想上来。 对此,我们也只能感叹到,互联网越来越不互联了。


- 最近发表
- 随机阅读
-
- 葛杨:“生命的价值在于奉献”
- 社区温情守护独居与失能老人
- 我国首个县界界桩标准发布 由湖北省地质局国土测绘院牵头完成
- 共建暖邻!孝南区文旅局履责送书香,民主社区阅读角“焕新”迎新春
- 长三角一体化古镇发展大会在铜陵市大通古镇举办
- 151只白鹤和东方白鹳在沉湖过冬
- 特朗普称将不会再有石油或资金流入古巴
- 南漳田垄间智能机器人上新 6分钟巡检一个温室大棚
- 芜湖孙村镇“文化下乡”进企业同台献演迎新春
- 让古籍故事“活”起来 ——读《大秦小吏》
- 黄梅公安举行荣休纪念章颁发与新警授衔仪式
- 真相来了丨打着高校旗号的“教授内推”“付费保录”靠谱吗
- 汪毅:捐献生命“火种” 点亮希望之光
- 记者Vlog丨“天空之国”莱索托 中非交流落地生根
- 大悟阳平:盆栽蓝莓焕新颜 产业升级结新果
- 学校早晨“推迟到校”遭部分家长反对,怎么看?
- 今年前11月全国铁路完成固定资产投资6407亿元
- 独居老人30余万元不翼而飞 原是“熟悉的陌生人”作案
- 美国南卡州一警察遭枪击受伤 嫌疑人被击毙
- 网传“净水器中加入的阻垢剂会引起骨质疏松” 真相究竟如何?
- 搜索
-