关于网页抓取的10个误区(最新)
1. 网页爬取是非法的
许多人对网页抓取有错误的印象。这是因为有些人不尊重互联网上的出色作品,而是通过窃取内容来使用它。Web爬虫本身并不是非法的,但是当人们未经站点所有者的许可而无视ToS(服务条款)使用它时,就会出现问题。根据报告,有2%的在线收入可能会由于网络抓取滥用内容而损失。即使网络抓取没有明确的法律和条款来限制其应用,但仍需受到法律的约束。例:
违反《计算机欺诈和滥用法》(CFAA)。
违反《数字千年版权法案》(DMCA)
侵害动产行为
盗用
侵犯版权
违反合约
2.网页抓取和网页爬取相同
网络抓取涉及在目标网页上提取特定数据,例如,提取有关销售线索,房地产清单和产品价格的数据。相反,网络爬取是搜索引擎的工作。它扫描并索引整个网站及其内部链接。“搜寻器”可在没有特定目标的情况下浏览网页。
3.您可以抓取任何网站
人们经常要求抓取诸如电子邮件地址或Facebook帖子以及LinkedIn信息之类的信息。在进行网页抓取之前,请务必注意以下规则:
需要用户名和密码的私人数据无法抓取。
遵守TOS(服务条款),该条款明确禁止网页抓取行为。
请勿复制受版权保护的数据。
如果触犯相关法律,那么将会被起诉。例如,一个人抓取了一些机密信息,然后无视站点所有者发送的禁止信将其出售给第三方。可以根据违法侵害动产行为法,违反《数字千年版权法》(DMCA),违反《计算机欺诈和滥用法》(CFAA)以及盗用法起诉该人。
这并不意味着您不能抓取Twitter,Facebook,Instagram和YouTube等社交媒体渠道的数据。他们对遵循robots.txt文件规定的抓取服务很友好。对于Facebook,在进行自动数据收集行为之前,您需要获得其书面许可。
4.您需要知道如何抓取数据
Web抓取工具(数据提取工具)对于非技术专业人员,如营销人员,统计学家,财务顾问,比特币投资者,研究人员,新闻记者等,非常有用。Octoparse推出了很多写好的抓取模板,涵盖Facebook,Twitter,Amazon,eBay,Instagram等30多个网站上的14个类别的数据。只需在模板中输入关键字/ URL,就能快速获取到数据。无需编程,无需进行任何复杂的抓取配置。与Python相比,使用Octoparse抓取数据更加简单高效。
5.您可以将抓取的数据用于任何事情
如果从网站上抓取数据用于分析,以供公众使用,这是完全合法的。但是,如果是为获取利润而窃取机密信息是不合法的。例如,未经允许就抓取私人联系信息,然后将其出售给第三者以牟利是非法的。此外,在没有提供来源的情况下,将别人的内容抓取下来伪装成自己的原创内容,也是不道德的。根据法律,您应该遵循禁止垃圾邮件,禁止抄袭,禁止任何欺诈性使用数据的理念。
6.网页抓取是万能的
网页抓取并不是一劳永逸的。某些网站会不定期更改其布局或结构。如果遇到这样的网站,以前配置好的抓取任务可能没办法正常抓取到想要的数据。抓取不到数据的原因有很多,可能是将您识别为可疑机器人。也可能是由于更改了地理位置没有访问权限。在这种情况下,我们需要调整抓取任务。
7.抓取速度可以尽可能快
很多抓取广告都会宣传其抓取速度很快:在几秒钟内收集数据。但是,过快的抓取速度很容易对网站造成损害:快速的可伸缩数据请求将使Web服务器超载,从而可能导致服务器崩溃。这时候可能被起诉。根据“侵入动产”法(Dryer and Stockton 2013),该人应对损害负责。如果您不确定网站是否可抓取,请咨询网页抓取服务提供商。Octoparse是负责任的网页抓取服务提供商,将客户的满意度放在首位。
8. API和Web抓取相同
API是将数据请求发送到Web服务器,Web服务器返回相应数据的渠道。API将通过HTTP协议以JSON格式返回数据。例如,Facebook API,Twitter API和Instagram API。通过API获取数据具有一定难度,且返回的数据有一定限制,可能并不完全是您想想要的。网页数据抓取工具则更简单、更灵活。Octoparse具有网页抓取模板。对于非技术人员而言,通过在模板中输入关键字/ URL来获取数据更加简单。
9.抓取的数据仅在经过清理和分析后才对我们的业务有效
许多数据集成平台可以帮助我们进行数据可视化分析。相比之下,数据抓取似乎对业务决策没有直接影响。Web抓取获得的网页原始数据,确实需要在处理后才能彰显价值,例如对评论文本进行情感分析,进而洞察市场。但是,有些原始数据在黄金开采者手中可能是极其有价值的。
以Octoparse为例。通过使用 Google搜索网络抓取模板 来采集关键词的搜索结果。您可以提取竞争对手的标题和详细描述,以确定您的SEO策略。对于零售行业,还可以使用Web抓取工具来进行产品监控。
10.网页抓取只能用于商业
网页抓取广泛应用于各个领域:寻找潜在客户,价格监控,价格跟踪,业务市场分析。学生还可以利用Google Scholar 网络抓取模板进行论文研究。房地产经纪人能够进行住房研究并预测住房市场。或者可以通过关键词抓取相关的新闻媒体数据,做垂直领域资讯聚合。
服务提示