八爪鱼,百万用户信赖的网络爬虫工具

如何找到年度爆火神剧《觉醒年代》的观众画像?大数据告诉你!

作者:keven 发布时间:7/1/2021 3:09:33 PM 13623 人已阅读

摘要:如何找到年度爆火神剧《觉醒年代》的观众画像?大数据告诉你!

 

要说最近最火的电视剧,那非《觉醒年代》莫属!

 

 

这部由央视出品的献礼片,在建党100周年之际播出实在再适合不过。但不同于我们以往对于这类剧集的印象,非但不沉闷说教,反而充满激情,令人心潮澎湃。

 

没有流量的加持,却凭借过硬的品质和精湛的演技收获了好评无数,豆瓣评分高达9.3分,评价人数超过27W人。 


据八爪鱼大数据统计,近两周《觉醒年代》在热搜榜出现了15次(仅包含关键词数据),仅次于《叛逆者》(16次)。

 

 

近两周微博热搜榜数据(6.12-6.25)

 

这部热门影视剧收获了哪些人的认同?在哪些人群中讨论最为热烈呢?


我们用八爪鱼数据采集爬取3624条《觉醒年代》微博博文,从数据采集、数据清洗、到数据可视化,手把手教你解析《觉醒年代》粉丝人群画像。

 

本文您将获得

1、微博采集思路解析

2、微博评论数据的可视化分析思路

3、采集福利集锦(文末)

 

一、《觉醒年代》微博采集思路解析

 

1、首先明确观影人群画像需要哪些数据字段?

采集字段:用户名、性别、年龄、头像、城市地区、院校、属性标签、简介以及它的微博评论内容、发布时间、发布来源。

 

为了加快采集效率,此处我们分两步进行:

1)从微博广场采集《觉醒年代》的实时讨论内容,包括用户名、发布来源、发布内容、发布时间、用户主页链接等

2)根据已经采集好的微博主页链接,从主页链接获取观众基本信息,包括用户名、性别、年龄、城市地区、毕业院校、个人标签等内容。

 

2、打开八爪鱼,根据目标字段制作规则并运行

 

我已制作好的八爪鱼微博采集规则

 

微博搜索采集规则

 

 微博讨论用户基本信息采集规则

 

 

二、《觉醒年代》评论数据可视化分析思路

 

1、明确观影人群画像分析维度

 

包括:性别、年龄、地区、发布来源、星座、标签属性、微博内容词频分析等维度。

 

2、清洗数据

 

清洗数据是非常关键的一环,数据的质量直接决定分析结果的质量。

 

 

在原有的数据上,我根据一些背景数据和分析需要,做了颗粒度更细的划分,同时通过统一表述(原意不变),让数据可以更好地归类和呈现。

 

3、数据可视化分析

 

1) 基本信息:性别分布

 

 

微博讨论用户年性别占比

 

从微博讨论《觉醒年代》的用户人群来看,女性粉丝占比79.42%,男性人群占比仅20.58%成,《觉醒年代》在女性人群中有着极高热度,除了微博本身的用户性别占比外,与女性人群更热爱表达也有一定的关系。

 

2) 基本信息:年龄分布

微博讨论用户年龄段划分

 

从年龄分布来看,,《觉醒年代》在90后及00后中影响最为广泛,占据所有讨论人数的95%。热衷讨论《觉醒年代》的观众中,95后观众的占比超过一半、00后异军突起,占比超过90后,成为《觉醒年代》的观众主力军之一;相比之下,《觉醒年代》对于90年之前出生的观众影响较小,讨论热度也不高。

 

3) 基本信息:地域分布

 

微博讨论用户省份分布

 

 

从地域分布来看,北上广深等一线城市的观众讨论热度最高,其次是江浙沿海一带,山东、河南、湖北、重庆等省份观众同样热爱分享与讨论剧情。

城市类型的分布中,一线及新一线城市的观众占据了绝大多数,作为建党100周年的献礼剧,《觉醒年代》在海外观众中也收获了不少关注。

 

微博讨论用户城市划分

 

4) 基本信息:手机型号/渠道分布

微博讨论用户发布来源分布

 

手机品牌iPhone(42.05%)占比超过四成;华为13.29%、荣耀3.39%、OPPO 3.21%、VIVO 1.82%、小米2.34%等国产手机总占比将近3成,热议《觉醒年代》的观众中,有超过4成是忠实“果粉”。

微博视频号、觉醒年代超话等也是用户来源之一。

 

 5) 基本信息:个人标签

微博讨论用户标签分布

 

从讨论人的身份标签来看,热爱讨论《觉醒年代》的观众大多是热爱旅游和音乐,喜欢追星看小说、幽默搞笑的网友。出现次数排名前十的标签分别是:旅游音乐明星名人幽默搞笑星座动漫摄影八卦

 

6) 基本信息:星座分布

排行TOP5的星座分别是:巨蟹座、天秤座、天蝎座、狮子座、摩羯座。

 

微博讨论用户星座及性别分布

 

7)讨论内容:评论词频分析

热门讨论词的大小根据关键词出现的次数变化。筛去电视剧名称及角色/主演名字后,频次最多的词展示如下:

 

微博讨论词频分布

 

热门讨论词可以分为以下几类:

A 剧情向:历史、文化、日记、先辈、信仰、建党、革命者、青春、青年

B 情感向:热泪盈眶、眼泪、快乐、可爱、感动、热血沸腾、伟大、幸福

C 评价向:yyds、好看、安利、镜头、成本、台词、主演、角色、流量

 

8)讨论内容:角色讨论热度排行

 

《觉醒年代》角色讨论热度

 

根据角色热度排行来看,陈独秀及李大钊两位作为主角,讨论热度遥遥领先于其他角色,前段时间斩获“白玉兰奖最佳男主角”的陈独秀饰演者于和伟老师,无论是剧中角色还是本人演技,都得到了广大网友的认可;

延年和乔年两位的成长经历也赚足了讨论热度,稳居讨论热度TOP5,蔡元培、辜鸿铭、胡适、邓中夏等具有影响力的文化学者和革命党人同样有着超高的讨论度;

柳眉是唯一上榜的女性角色,与剧中的延年从欢喜冤家发展到两情相悦,二人的感情线被广大网友热议。

 

3. 八爪鱼采集福利!


1. 微博关键词采集规则

2. 微博主页信息采集规则


如何获得?

扫码以下二维码,即可免费下载

 

将otd规则导入到八爪鱼采集器中就可以使用啦~


附:使用指南( 采集规则仅适用于旧版微博,请在右上角切换回旧版微博后再使用)

 

 


第1步 设置cookie登录微博 

因为微博必须要登录才能看得到更多的数据,所以登录是我们要做的第一步。先点击第一步打开网页,在采集界面中打开浏览模式,选择账号或扫码登录微博;

登录完成后,在打开网页的步骤设置中选择使用指定的cookie,获取当前页面的cookie并应用


第2步 输入#觉醒年代#关键词获得搜索结果   如果需要搜索其他关键词(一个或多个),可以打开循环1的步骤设置界面


将循环方式切换为“文本列表”,点击红色方框中的编辑按钮,输入关键词(多个关键词按回车分隔),确定后点击右下方的应用,即可切换关键词。

 

 


第3步 设置循环页数规则中默认的翻页数是10页,如果想要更改翻页次数,可以打开循环翻页中的步骤设置(如果不需要更改翻页次数,可以略过这一步)



修改循环执行次数(上限不能超过50页),并点击应用;

 



第4步 保存并运行规则,收获数据

 

 



第5步 微博用户信息循环采集

进入填写的URL列表步骤设置(用户信息可以在未登录的状态下采集,但登录后采集效果更好,登录cookie制作可以参考第一步)

 

 

 

从上述采集到的数据中复制讨论用户的主页链接(字段名:微博发布者链接),并导入循环,点击应用

 

 

保存并启动规则,就可以成功获取讨论用户的微博主页信息啦!


扫码即可免费获取微博采集规则

 

 


欢迎咨询在线客服
加微信群,与更多用户一起交流