八爪鱼,百万用户信赖的网络爬虫工具

豆瓣采集攻略|我们来看看2017年有什么好电影

作者:keven 发布时间:5/5/2017 2:42:32 PM 14583 人已阅读

摘要:我们采集了一份豆瓣电影信息,列出了17年好电影榜单,并从中看出了一些规律。。。

人的一生太短,好电影太多,大多数人一辈子也看不了1000部电影,对于爱好电影之士,学会筛选非常重要。

 

用八爪鱼采集商品信息、楼房信息、企业信息等等,相信你们已经耳熟能详。

 

今天我们不妨试着用八爪鱼采集豆瓣的电影信息,看看2017年的好电影榜单,并试着在数据中看好片。

 

因此我们需要:

 

1、2017年已上映电影的数据源(这份数据至少应该包括电影名称、导演编剧上映时间、制片地、评分等等)

 

2、对这份数据源进行简单清洗分析,得出17年高分电影榜单,并试着探析好电影的规律(例如制片地区、题材、导演编剧等)

 

既然目标明确,那就动工吧!

 

 

1、数据源的抓取

 

首先在豆瓣上点击“电影”,点击“分类”,接下来输入“2017”这个标签点击进入,我们就能精准地定位到上述所需的数据源。

 分类

标签

1

 

需要注意的是,虽然我们选择了电影,但豆瓣还是罗列出了最近热火朝天的电视剧《人民的名义》,我们只能根据网页已有的数据去抓取,后期可通过筛选将电视剧这个元素踢除。

 

OK!开始进入采集状态,打开八爪鱼制作规则,这个规则的思路非常简单,每一步都十分明确。

 

 2

 

贴入我们要开扒的网址,拉到网页下端“循环点击这个元素”让翻页循环创建起来。

 3

 

4

 

选中《人民的名义》和《速八》让这一类数据组循环。

 

 5

 

当页面跳转至电影详情页,你就可以尽情抓取所需的数据字段了!

 

 6

 

 

但是,有个tips很重要:

 

豆瓣电影详情页除了片名和评分位置是固定不变的,其他字段如导演类型制片地区等数据采集出来位置可能有所变动。

 

也就是说他本是导演,抓取下来他就有可能跑到演员列表里了。

 

7

 

所以我们还需要为这些数据添加正则表达式,不懂正则表达式?说白了就是把这些数据框在它该有的位置。关于这个步骤,说来话长,看动图吧:

 8 动图

 

其他数据字段也ding一下,如此一来,这个规则就完成了,开始采集导出数据。再根据“集数”这个指标踢除电视剧,就这样轻松得到了一份17年豆瓣榜单数据源。

 

9 

 

 

2、数据可视化分析

 

 

我需要快速将这份数据可视化,所以选择了“微图”,登录、导入数据一气呵成,接下来就是可视化的玩耍了。

 

 10

 

好电影有两个标准,一是讲好一个故事,二是讲一个好故事,前者需要一个好导演,后者需要一个好编剧。结合豆瓣评分,不难提名出一份出色导演榜单。

 

 11

 

再来,豆瓣用户都喜欢什么类型的电影,看数据也能一目了然:

 

 12

 

 

2017年是大片云集的一年,在豆瓣被提及次数最多的电影,大概列举几部就是评分8.7的《楢山节考》,评分8.5的《负重前行》,评分8.3的《美女与野兽》,额~还有评分只有6.6的《指甲刀人魔》。

 

13 

 

为什么评分只有6.6的《指甲刀人魔》却反复被提及?从数据来看,其中不排除雇请水军刷流量的嫌疑。

 

相对爆发式的流量和讨论,2017年讨论人数最多的电影却显现了豆友们对经典的回归。

 

比如《让子弹飞》讨论人数高达589127人,《霸王别姬》讨论人数有583053。接下来便是《老炮》、《美人鱼》、还有笔者十分喜爱的《活着》。

14 

 

知乎上有人问,为什么豆瓣对于外国电影的评分普遍比中国同水平的电影高?制片地区以及影片语言对豆瓣电影的评分有多大影响?我们看图说话:

 15

无意外美国电影在豆瓣总评分最高,其次是日本电影、中国大陆、香港、韩国、英国、法国。我们可以大致看出电影业发达国家排行榜以及豆友们心仪的影片类型。

 

16

最后为大家附上几部豆瓣评分超过9分的电影,值得注意的《最后的棒棒》是评分高达9.7的国产纪录片、《幻镜诺德琳 》是评分高达9.6的国产动画、《荒山泪》是评分9.3的中国戏曲、《丝路花雨》是评分9.3的国产歌舞剧。

 

用数据说话,谁说国人看外国的月亮才比较圆呢?

 

 17

 

以上,便是我们基于八爪鱼、微图的豆瓣电影采集案例,数据来源于豆瓣,只是一小部分,微图也在探索更加强大的分析能力,所以数据结果有偏差也在所难免。

 

重要的是, 我们希望爪子们能enjoy大数据思维带来的乐趣!

 

 18

 


欢迎咨询在线客服
加微信群,与更多用户一起交流