百度糯米电影信息采集
2018-01-19 12:05:46 阅读量: 29335
本文介绍使用八爪鱼采集百度糯米的方法,学会之后用户可以熟练使用我们的各种步骤来采集你所需要的各类网站数据,成为采集达人。
采集网站:
https://dianying.nuomi.com/movie/movielist
本文就以百度糯米主页下的某一个分类--电影影片,来具体说明怎么去采集类似的电影影片。
采集的内容包括:电影名称,电影效果,电影上映时间,电影别名,电影类型,电影时长,电影上映时间,电影剧情。
使用功能点:
l 列表循环
l Ajax点击
步骤1:创建百度糯米电影影片采集任务
1)进入主界面,选择“自定义采集”
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
步骤2:创建循环下一页步骤
1)打开网页之后,进入百度糯米电影页面,打开右上角的流程按钮,可以显示你所创建好的步骤,我们往下拖动页面到列表的底部,可以看到下一页,点击下一页,选择“循环点击下一页”
2)在流程中选择“点击翻页”,在高级选项中设Ajax加载数据,时间为2~3秒
步骤3:创建循环列表
1) 然后提取该页面所需的元素,点击包含第一条影片信息空白处,选择“选中子元素”
2) 然后八爪鱼将会识别与第一条影片同样信息的其他影片,选择“选中全部”
3) 采集数据
4) 点击第一条影片,选择点击该元素
5) 选择刚刚建立的“点击元素”,查看其高级选项,注意“点击当前循环中设置的元素”、“在新标签页打开”为勾选状态
步骤4:提取详情页面信息
1) 进入详情页面,点击剧情下三角,采集剧情简介
2) 注意:点击元素设置Ajax数据加载
步骤5:开启采集
1)选择“启动本地采集
2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 这里我们选择excel作为导出为格式
数据导出后如下图