八爪鱼,百万用户信赖的网络爬虫工具

数据的火花 当社交网站遇到八爪鱼采集

作者:xinyue 发布时间:8/6/2014 5:18:55 PM 11557 人已阅读

摘要:知名社交网站每天新增海量的UCG(用户创造内容)数据,面对海量数据,人工收集方式早已落伍,当社交网站遭遇八爪鱼,会给使用者们带来什么改变?又引领着数据爱好者上演一场怎样的数据之舞?

       WEB2.0时代以来,社交网站相信大家都不陌生,即SNS网站,伴随着社交网站的六度分隔理论(也叫六度空间理论)曾经一度非常火热,凡是提到做网站必得提到SNS,再不济也要给自己的网站增加点SNS的属性。国内知名的社交网站比如说新浪微博、问答性质的社交网站如知乎网、爱好类的如豆瓣、交友娱乐类的像开心网、人人网等等,大家都非常熟悉了。国外的脸书(facebook)、twitter等也属于此类型的网站。下图是网络上的一个中国社会化媒体网站一览表:

 社交网站

 

         这类网站的信息量非常大,而且话题资讯更新非常频繁快速,海量的用户创造了海量的数据内容,网页结构也不似普通的网站那么简单,每个知名社交网站都可以算得上一个相对意义上的大数据虚拟社会。

        对于此类型的网站,经常也有八爪鱼的小伙伴们在问,能否采集到这些页面的数据进行社会热点研究、话题分析、舆情监控等用途。由于社交网站的网页结构较为复杂,AJAX网页多次加载,网页本身设置有防采集措施,再加上很多数据是登陆后才能显示的,等等,可谓采集难度非常之大,很多软件在面对处理SNS类型网站的时候会非常棘手甚至无法处理。八爪鱼目前在AJAX网页处理上技术优势较为明显。接下来,八妹子就分享下用户上传的一些社交网站采集规则吧。

       新浪微博的采集规则主要有话题采集、热点人物采集、用户信息采集、未登陆(首页)信息采集、搜索页采集等, 对于企业做舆情监控或收集热点话题进行营销、热点数据分析等,也是十分便利的一种做法。

 微博采集规则

 

 

       最近做营销的针对问答类型的网站做的功课也非常多,八妹子也找了几个与问答类型网站相关的规则给小伙们使用,在做营销以及效果监控的时候还是非常有帮助的哦!

 

 问答采集

 

 知道采集

 

        最后,八妹子介绍这些规则给小伙伴们,只是抛砖引玉,是希望借现有的规则给大家学习借鉴,未必适合每个小伙伴的实际采集需求,八爪鱼作为通用性采集器,更多的用途需要小伙伴们举一反三自行去挖掘分享。

 

        八爪鱼大数据免费培训课第五课XPATH专题已经开始报名,进入论坛即可进行课程报名,8月9日(星期六)20:30在YY频道28555302与大家不见不散哦!

 

 


欢迎咨询在线客服
加微信群,与更多用户一起交流