从3500条《流浪地球》微博评论中解析科幻片观影人群画像
今日话题:如何用八爪鱼采集#流浪地球#新浪微博评论,并从中分析科幻观影人群画像?
要说贺岁档的最抢眼的黑马当属我们刚突破41亿票房的《流浪地球》咯~
今日我们将通过八爪鱼爬取3500条#流浪地球#微博评论,用数据解析流浪地球的观影人群画像。
有人问,为什么要用数据来解析观影人群画像?
因为近年来大数据在影视娱乐行业的应用场景越来越成熟,比如在电影宣发投放、精准营销、观影人群定位、城市或影院排期、口碑舆情分析等多个方面,都能看到数据正在发挥越来越大的价值。
但这些数据通常都掌握在各大线上票务平台手里,普通个人难以直接获取数据。
还好有我们的八爪鱼数据爬取软件,帮我们获取第一手数据!
本文您将获得
1、微博评论采集思路解析与工具
2、微博评论数据的可视化分析思路与工具
3、采集福利集锦(文末)
一、#流浪地球#微博采集思路解析与工具
1、首先明确观影人群画像需要哪些数据字段?
经考虑,我确定必要的字段包括:用户名、性别、年龄、头像、城市地区、院校、属性标签、简介以及它的微博评论内容、发布时间、发布来源。
2、打开八爪鱼,根据目标字段制作规则并运行
我已制作好的八爪鱼微博采集规则
运行规则后八爪鱼所采集到的数据
下面说下我的规则制作思路。
第1步 制作COOKIE登录微博
因为微博必须要登录才能看得到更多的数据,所以登录是我们要做的第一步。
第2步 输入#流浪地球#关键词获得搜索结果
第3步 将所有微博全文展开并制作微博采集循环
展开全文循环
微博采集循环
微博内容采集循环
第4步 制作微博用户信息采集循环
第5步 手动执行排错
规则制作后,手动一个个点击,查看每个步骤看否能正常展示并成功采集,更详细的排错思路可以查看:排错脑图
第6步 运行规则收获数据
二、#流浪地球#评论数据可视化分析思路与工具
1、明确观影人群画像分析需要哪几个维度?
根据电影方的目标需求,指定分析维度。
基础维度可以包括:性别、年龄、地区、发布来源、星座、标签属性、微博内容词频分析等维度。
2、清洗数据
清洗数据是非常基础、枯燥但尤其重要的工作,直接决定分析结果与决策依据的合理性和质量。
原有字段名称及内容
清洗过后的字段名称及内容
细心的爪子们会发现,我在原有的数据上,根据一些背景数据和分析需要,做了颗粒度更细的划分,同时通过统一表述(原意不变),让数据可以更好地归类和呈现。
如,将转发量单独划分出来、将手机品牌表述进行统一规整、将城市根据一、二、三、四、五线做了划分、将性别变成中文展示。
另外字段中有些文本含有多余的文字,需要用EXCEL清除。
3、将数据导入可视化分析软件得出结果(分析工具:BDP个人版)
(PS:由于小八并非电影专业人员,这里的分析只做举例示范用)
1)单一维度:如年龄、手机品牌
#流浪地球# 微博评论用户年龄划分
#流浪地球# 微博评论用户发布手机/渠道划分
2)交叉维度分析:性别+年龄
#流浪地球# 微博评论用户性别+年龄划分
可以初步得出结论,在微博发布用户中:
a)女性用户要比男性用户要高,从数据上看,女性观影人数多于男性,但更有可能是因为女性更爱分享、发布评论;
b)不论男女,20-29岁是最核心的观影人群;
3)交叉维度分析:转赞数+发布手机/渠道
#流浪地球# 微博评论用户转赞数+发布手机/渠道
a)发布来源中,来自iPhone和华为手机2大厂商是用户最多,紧接是OPPO、VIVO、360(PC浏览器);
(背景数据:IDC 2019公布全国智能手机市场销量排名依次是:OPPO、vivo、荣耀、小米、华为、苹果、魅族、三星、锤子、360)
b)微博超话、YOUKU精选视频、豆瓣也是用户评论的来源之一。
4)交叉维度分析:性别+星座
#流浪地球# 微博评论用户性别+星座
发现不管是男生或女生,排第一的都是摩羯座。如果现场有看过的流浪地球的摩羯座爪爪,可以举起的你的爪子,让我看到~
5)背景数据+数据分析:城市划分+微博数据
#流浪地球# 微博评论用户城市划分+微博数据
a)背景数据:第一财经·新一线城市排名划分清单,将城市划分为一~五线
b)微博评论用户主要来自于一线城市、新一线城市
#流浪地球# 微博评论用户 省市分布
6)微博内容词频分析
#流浪地球# 微博评论词频分布
词语的大小根据关键词出现的次数变化。
据观察,票房、科幻、特效、剧情、吴京、情人节等是出现频次非常高的词语。
采集福利集锦
1、微博关键词及用户信息采集教程
2、微博关键词及用户信息采集规则(该规则价值绝对超过1000元!)
如何获得?
注册成功后点击右侧在线客服,回复“流量地球福利”关键词,即可领取上述采集福利集锦。
服务提示