加入收藏 | 设为首页 | 会员中心 | 我要投稿 济源站长网 (https://www.0391zz.cn/)- 数据工具、数据仓库、行业智能、CDN、运营!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

不让网络爬虫变“害虫”

发布时间:2021-03-24 15:25:36 所属栏目:外闻 来源:互联网
导读:重要源泉。但在大数据收集过程中,也存在着各种违法犯罪问题。网络爬虫(Web Crawler)作为一种能快速精准地获取数据信息的基础性网络技术,近年来得到了越来越多的青睐和应用。如何对其进行规制,驱动其向好向善,成为当前重要的法治议题。 小爬虫的大角色 网

重要源泉。但在大数据收集过程中,也存在着各种违法犯罪问题。网络爬虫(Web Crawler)作为一种能快速精准地获取数据信息的基础性网络技术,近年来得到了越来越多的青睐和应用。如何对其进行规制,驱动其向好向善,成为当前重要的法治议题。

“小爬虫”的“大角色”

网络爬虫,又称为“网页蜘蛛”“网络机器人”,是一种按照一定的规则,自动抓取网络信息的程序或者脚本。它能在特定程序的驱动下,模仿人工点击从网站、手机应用、小程序或搜索引擎中检索、提取、存储数据。我们可以形象地将它们理解为一种爬行在网络上的蜘蛛,它们根据程序的指令,通常沿着URL(网址)这根蛛丝,在互联网这张大网上爬来爬去,寻找和带回所需要的数据资源。我们熟知的百度、搜狗、谷歌等搜索引擎,其技术核心元素之一就是“网络爬虫”。例如百度蜘蛛,它通过互联网入口爬取网页,实时存储并更新索引,然后为用户提供检索服务。

自从1993年第一个网络爬虫程序——“互联网漫游者”被开发出来,网络爬虫这种便捷高效的搜索技术便得到了业界关注。特别是随着数据资源的爆炸式增长,网络爬虫的应用场景也变得越发广泛与多元,长期活跃于市场调查、产品研发、金融分析、舆情监控、风险预测等领域。近年来,一些运用爬虫技术为客户提供数据服务的互联网企业,也获得了快速发展。对个人而言,我们可以利用爬虫软件等计算机编程语言,让网络爬虫为自己服务。例如想买到理想的房子,就可爬取房产中介的公开信息,分析房源数据与趋势以辅助决策。

网络的本质与价值在于连接,核心是实现数据的流动与分享。网络爬虫作为数据抓取的技术工具,通过爬行增强了网络节点间的联络,提升了网络的整体价值,是构建互联网开放与共享理念的重要技术基石。但网络爬虫所行之处,并非总是鲜花和掌声,特别是涉及隐私领地和网络安全之时。因此,为了规范爬虫,维护网络秩序,1994年诞生了“robots.txt协议”,该协议虽然只是一个“君子协议”,但它逐渐被视为网络空间爬虫技术应用公认的行业准则,也成为判定爬取行为是否获得网站许可的主要依据。在2014年百度公司诉奇虎360违反robots协议案中,法院在判决时就认为,被告没有遵守原告网站的robots协议,其行为明显不当,应当承担相应的不利后果。

科技异化:“好爬虫”和“坏爬虫”


(编辑:济源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读