八爪鱼,百万用户信赖的网络爬虫工具

网页数据采集到底是什么?

作者:keven 发布时间:11/4/2013 10:34:32 PM 8407 人已阅读

摘要:上网去搜索网页数据采集这几个字,出来的网页不少,可是看来看去,还没有一篇完整全面的说明,其实,网页数据采集是一个古老而又常新的话题,如果要下个定义,可以这么说:网页数据采集就是从网页上获取数据,一般来说是指通过软件或者工具从大量的公开可见的网页上精准的获取某一类信息,并且整理成规整的数据。

什么是网页数据采集

上网去搜索网页数据采集这几个字,出来的网页不少,可是看来看去,还没有一篇完整全面的说明,其实,网页数据采集是一个古老而又常新的话题,如果要下个定义,可以这么说:网页数据采集就是从网页上获取数据,一般来说是指通过软件或者工具从大量的公开可见的网页上精准的获取某一类信息,并且整理成规整的数据。

从上面这个定义来看,有几个关键的点,如果这几个点没有搞明白,就会有很多误解和困惑,在列举关键点之前,我们先看看几种常见的错误的理解:

错误观点1:网页数据采集就是“偷别人网站后台数据”。

经常有人找我所谓“拿站”,说白了就是想把别人网站数据特别是后台数据库,包括账号等等全部“拿过来”,他们还能告诉我“要用点黑客手段”,这种是一种非常常见的错误理解。

错误观点2:网页数据采集就是“仿站”,或者“抄站”

还有人认为,采集就是用工具把一个网站全部“复制下来”,然后仿造一个类似的“山寨版”。

错误观点3:网页数据采集就是转载,复制新闻帖子

甚至有些已经做过很长时间网页采集工作的人,或根据自己的经验把网页数据采集等同为复制转载新闻资讯帖子等。

正确观点:

其实以上几个观点都不正确,第一个,网页数据采集的目标是公开的网页,别人网站后台是“私有数据”,凡是没有经过授权,以所谓任何“黑客手段”盗取的后台数据都属于违法行为,我跟专业律师聊过这一点。第二个,网页数据采集本身是数据获取的过程,指的是从公开网页中获取数据,并不涉及拿数据来做什么,“仿站”其实是一种违反互联网精神,不尊重知识产权的行为,并且在一定程度上违法,如果对此有兴趣,可以查阅相关法律文件,对此我也有过深入研究,这种行为可能违法,因为构成不正当竞争,感兴趣的同学可以去深入了解一下“京东禁止一淘”等著名案例,在美国,很多年前已经有一宗非常典型的此类案件宣判。第三个,网页数据采集确实可以实现自动化转载新闻帖子等,但是这只是网页数据采集非常非常小的一个应用,不能把他等同于网页数据采集,而且这种方式也不应该成为提倡的利用网页数据采集的主要用途,再加上很多人,转载复制不说,还采取去除版权信息,掐头去尾,关键词替换,等等所谓的“伪原创”措施,想要欺骗搜索引擎,制造重复垃圾内容,这不仅损害了被采集者的权益,还让想要搜索一些有用信息的人,淹没在成百上千条重复搜索结果中,我就经常非常烦恼,翻了10页,都是同样的一篇垃圾内容,各个网站都有。这最大的危害是破坏了互联网的良性发展氛围,大家都恶意复制垃圾内容制制造重复垃圾,最终坏了一锅汤,到头来被K站,自食苦果。

好了,说了这么多,正确的理解主要由以下几个关键点:

  1. 采集的目标和源头是公开的网页。
  2. 采集一般是通过工具来完成。
  3. 采集的结果是规整的数据。
  4. 采集应该在法律和互联网规范的约束下进行,应该尊重知识产权。
  5. 最后,这不仅是我的理解,更是我一直提倡的网页采集的和游戏规则:就是把采集作为获取原始素材的方式,当获取到大量的原始素材之后,应该对数据进行自己原创性的独立的处理,处理的结论或者输出应该是自有知识产权的原创性内容,并且在必要的时候保留对原始采集网页的版权引用,注明参考出处。

结论                                                            

讲了这么多,其实只是探讨了什么是网页数据采集这个简单的概念,希望大家能共同支持和倡导互联网原创内容,积极维护网页数据采集的良好氛围,共同创造一个更好的互联网家园。

这次讨论网页数据采集是打算写一系列的原创文章,对网页数据采集这一话题做全面深入的探讨,欢迎各位一起探讨,互相学习。

讨论请加群:网页数据采集,群号:254764602,加群暗号:网页数据采集

本文于2013年11月4日首发于“八爪鱼采集器”,转载请注明出处。


欢迎咨询在线客服
加微信群,与更多用户一起交流