八爪鱼,百万用户信赖的网络爬虫工具

跟着我的前半生学数据分析,才能过好后半生

作者:keven 发布时间:8/4/2017 10:19:51 AM 11117 人已阅读

摘要:本文将使用八爪鱼+微图,锁定《我的前半生》,从全网舆情分析、用户画像、评论内容分析三大方向,对此剧进行大数据时代下的文本挖掘分析。

《我的前半生》大结局了?靳东马伊琍到底有没有在一起?

这部活跃在各大社交媒体,被疯狂讨论的剧,全网口碑到底如何?

是哪些群体眼巴巴地等着更新,迫不及待地安利给身边所有人?

豆瓣上的评论导向怎样?热门评论和典型意见具体是什么?

1

 

别着急,八爪鱼+微图,给你答案。

大家对八爪鱼已经十分了解,微图是什么呢?

2

 

下文将锁定《我的前半生》,从全网舆情分析、用户画像、评论内容分析三大方向,对此剧进行大数据时代下的文本挖掘分析。

 

全网舆情分析:基于全网关于该剧的探讨,了解该剧整体口碑概况。

用户画像:分析对该剧感兴趣的用户群体特征。

评论内容分析:通过文本挖掘,分析此剧获得观众较高认可的原因。

 

“我的前半生”全网舆情分析

 1、“我的前半生”全网情感分布

本文分析包含大结局时段峰值数据采集和分析。正面评论占比42.84%,负面占比20.57%,中性占比36.60%。

3

全网情感分布

图表来源:微图数据分析

 

下图是全网评论趋势。

4

 全网评论趋势

图表来源:微图数据分析

 

 通过上图可见,用户对结局的关注热度总体呈下降趋势,在7月26日大结局当晚出现小高峰。

 

 2、“我的前半生”全网关注度来源

从各信息发布渠道的表现来看,该剧在微博(新浪微博和腾讯微博)上的信息量占据主导地位,微博仍是娱乐影视的主要评论渠道,是粉丝与电视剧官方团队进行互动的首选。新闻媒体对该剧的关注度位居其次。

公众号则是“粉丝文化”的催化剂,这与“粉丝”及“粉丝文化”的流行紧密相关。而在“粉丝文化”的发展过程中,微信也起到了重要作用。下图是“我的前半生”全网信息量来源构成。

5

“我的前半生”全网信息量来源构成

图表来源:微图数据分析

 

3、“我的前半生”关键词云

以下是全网关于“我的前半生”文本信息的关键词提取,总计有26个,这些关键词来自于媒体报道,或用户UGC评论,从中我们可以发现网络上关于该剧的讨论集中在哪些关键点上。

 6

图表来源:微图数据分析

从上图中可以看出,除了本剧的片名—“我的前半生”以外,还有一些比较反映该剧特征的词汇,主要可分为两类。

剧情相关:“闺蜜代价”、“离婚“、“人生”、“亦舒”、“停职“、“调查”、“职场”、“广东”、“结局”。这类词汇能在一定程度上代表该剧想要表达的价值观和电视题材。

演员角色:“罗子君”、“唐晶”、 “雷佳音”、“贺函”、“凌玲”、 “陈俊生”。这类词汇更多代表舆论对人物角色的关注度。

 

4、“我的前半生”关联词分析

全网事件的热度信息关联词分析,它是通过建立模型,系统运算找出事件核心词、并计算出与核心词同时出现关联度最高的高频词。

 7

图表来源:新浪舆情

从上面的关联词即可看出,该剧的“正剧”属性确凿无疑,男主和女主与该剧关联度最高,从养尊处优的家庭环境,到遭医生丈夫抛弃,在白领好友帮助下,一步步重新站起来并再度寻找到幸福生活的故事。

 

5、“我的前半生”相关的热门文章

这里关于“热门”文章的定义主要是通过三个维度综合得出,即阅读量、转发量和评论量的综合评价。

8

图表来源:微图数据分析

上面有6篇个热门文章,它们在网络信息中的综合得分(阅读量、转发量和评论量)最高。从这几篇文章的标题可以看出,它们主要以预告大结局信息,将播出的剧集的剧情为主,由此可见该类文章的关注度较高。

 

二、关注网民的人群画像

分析前提假设条件:若该用户点击并阅读跟“我的前半生”影视相关的文章,则判定用户对该剧感兴趣。

1、关注网民的性别渗透率及年龄渗透率

用渗透率(度)来表示用户对特定事件关注度的比例,而非绝对值。有可能出现的情况是:一个人口稀少的地区有一百个人的人关注了某事件,相比一个人口大省有一万人关注该话题,计算得到的渗透率(度)可能更高。以下是这两类渗透率的计算公式:

性别渗透率=某性别用户对关键词的关注度/全网该性别用户总关注度

9

性别渗透率

图表来源:微图数据分析

年龄渗透率=某年龄段用户关键词的关注度/全网该年龄段用户总关注度

10

年龄渗透率

图表来源:微图数据分析

从上图可以看出,《我的前半生》的女性观众要多于男性观众。年龄方面,青年群体(24-30)对该剧的热衷程度高,一方面该剧与此类群体的职场和情感生活贴合度高,另一方面大家还是希望有经典台词、写实、不浮躁的优秀剧集出现。 

 

2、关注网民的地域分布

11

图表来源:微图数据分析

从上图可以看出,该剧的地域关注度差距不大,以山东和江苏排名靠前,情理之中,这部剧男主靳东祖籍山东,女主马伊琍为江苏人,在山东卫视0.906收视率颇高,该剧第8集提及吕四渔场、黄金海滩、启东中学都是江苏的地域。

 

3、关注网民的兴趣图谱

该部分度量了关注“我的前半生”的受众的整体兴趣情况,同样是根据他们阅读文章的类别(如“科技”、“历史”等)来进行判断的,以此为指标对各兴趣类别在关注该话题的人群中从高到低进行排序。

“用户兴趣”的计算公式=某兴趣类别的用户对关键词的关注度/某兴趣类别用户总关注度

在这里,兴趣图谱分为3层,越往下分则越细致。结合上面的年龄、性别和地域因素,从这些兴趣图谱中,我们能得到关于受众人群更为深层的洞察。

一级:

12

图表来源:微图数据分析

二级:

13

图表来源:微图数据分析

三级:

14

图表来源:微图数据分析

通过上面对受众兴趣图谱层层递进的“钻取”,我们可以看到,他们主要的兴趣有“影视娱乐”、“育儿”、“时尚搭配”、“明星八卦”、“婚外情”、“恋爱”和“今日特卖”。

结合先前的2个人群画像维度,可以判断出喜爱《我的前半生》的人群是一些年轻职场女性或年轻家庭主妇,喜欢网购,时尚的群体,有一定经济实力和学历的女性为主。

 

、评论内容分析

本文在分析剧情评论内容方面,先通过八爪鱼采集器采集豆瓣1015条评论,再通过微图文本分析工具,对数据进行处理,从海量文本数据关键词提取、具体热门评论内容展示、文本聚类典型意见提取几个方面对该剧的口碑进行分析。

1 、评论内容和关键词提取

15

图表来源:微图数据分析

通过微图关键词提取,反应豆瓣用户观点和剧情。当下全职太太潜在婚姻危机,女性励志,职场生存,闺蜜友情,现代男女价值观系列写实问题。

 

2、热门评论内容展示

16

图表来源:微图数据分析

 

3 、典型意见提取

17

图表来源:微图数据分析

 

 

剧中,罗子君付出沉重代价时说:“服务员、营业员,我从来没想到我会成为他们其中的一员,仿佛我生下来就是陈太太,其实我是得意之后,忘了自己来时的路。”

安稳的生活是人人向往的,但是无论身处什么样的环境中,最重要的永远都是学会保有自我,学会独立。

只有保有自我,做一个精神独立物质独立的人,才会在生活欺骗你的时候,给你底气和勇气,让你在低谷时照样活得漂亮,活出精彩。

 

本文参考资料:新浪微博舆情

 


欢迎咨询在线客服
加微信群,与更多用户一起交流