八爪鱼,百万用户信赖的网络爬虫工具

分析用户画像?从微博数据采集开始!

作者:keven 发布时间:10/13/2017 3:56:03 PM 45428 人已阅读

摘要:本文介绍以小米Note发布的微博评论数据为对象,利用八爪鱼和微图工具从零散的微博数据中采集、分析生成一个清晰地用户画像吧。

想设计一款新的产品,你了解未来的用户是什么样吗?想提升服务质量,用户调研应该怎么做?想评估新功能上线效果,用户情感偏好你了解吗?有了用户画像,这些问题的答案就变得逐渐清晰起来。

用户画像


那么关键问题来了,用户数据要从哪里获取呢?你可以从CRM系统中寻找,也可以去各种网站收集用户留下的蛛丝马迹,还可以到微博中找到用户属性和对产品的情感倾向,下面就以小米Note发布的微博评论数据为对象,看看八爪鱼和微图是如何从零散的数据中生成一个清晰地用户画像吧。

 

首先需要到微博去把需要的数据采集下来。不会爬虫也不用悲伤,因为有八爪鱼帮你,想要的数据都可以搞定。

首先给大家推荐一个小技巧,第一次用八爪鱼采集微博的童鞋,可以先制作一个简单的预登陆规则。

微博采集预登陆

 

保存并启动本地采集,只提取一个字段的规则几秒就会采集完成,之后在采集完成的页面上我们就可以输入账号密码登陆了。

 

到这里我们相当于已经将登陆状态保存在八爪鱼内置浏览器当中了,之后就可以正常采集了。

 

下面开始进入正式采集

 

1.打开八爪鱼采集器,找到主页下自定义采集,点击立即使用。

自定义采集

 

2输入需要采集的微博页面网址,多个网址可以用换行符分隔,点击保存网址。通过关键词搜索获取微博页面网址也可以使用同样的方法采集哦。

 

保存网址

 

3.打开后可以看到八爪鱼已经登录上微博。

已登录

 

4.观察网页发现如果想看更多评论需要下拉网页2次,之后点击查看更多来获取。这里我们在打开网页步骤设置页面加载完成后向下滚动,具体设置如下图:

 

打开网页滚动设置

 

之后循环点击查看更多来加载内容,这里我们需要提前加载到需要采集的页数后再进行采集,因为加载后的内容是一直存在的,如果边采集边翻页会造成采集内容的重复。具体设置如下:

 

查看更多

 

设置Ajax

AJax加载

 

之后循环提取所需要的评论内容,手动运行规则无误后,就可以采集了,结果如下:

 

采集结果

 

之后循环提取所需要的评论内容即可

这里加载了100页的内容,如果需求数据较少可以减少加载更多页次数,可以使采集更加迅速。

彩蛋彩蛋:不知道爪子们有没有注意到,八爪鱼在主页下的网站简易采集下,有微博网页关键词搜索的模板,如果采集需求不是很复杂可以直接使用简易采集的,这样就省下了做规则的时间。

 

1、性别

 

可以看到这条微博评论区的网友有48.03%是男生,女性占到51.97%,男女粉丝数没有相差太多。

 

性别

 

2、年龄

根据采集数据分析得到的年龄分布图,我们可以看到评论网友的出生年龄大多集中在85后和90后,18岁以下的粉丝和35岁以上的粉丝相对较少。

 

 

3、地域

地域分布

 

颜色的深浅表示评论人数的多少,除了台湾、海南,评论网友最多来自广东,其次是北京,山西、山东、上海。

 

4、职业

 

行业

 

 

从分布图可以看出,大部分评论网友都是IT行业的,其中网络电子产品相关从业者的关注最多。

5、兴趣爱好

 

兴趣

 

6、品牌偏好

 

 

评论关键词

从上图关键词可见,大家对代言人的好感还是不错的,程度词:喜欢、好看、满分、不错都表现出评论网友对产品的情感倾向。

这样根据微博采集到的数据,就可以做出一个简单的用户画像。数据采集和分析对分析用户画像必不可少,大家还想采集什么用户相关数据,别忘了留言哦!

 


欢迎咨询在线客服
加微信群,与更多用户一起交流