今日头条数据采集
2017-10-19 09:34:50 阅读量: 84963
采集网站:
https://www.toutiao.com/ch/news_hot/
使用功能点:
l Ajax滚动加载设置
l 列表内容提取
今日头条:今日头条是北京字节跳动科技有限公司开发的一款基于数据挖掘的推荐引擎产品,为用户推荐信息,提供连接人与信息的服务的产品。由张一鸣于2012年3月创建,2012年8月发布第一个版本。今日头条通过算法解读微博、QQ等社交账号登陆的使用者的兴趣,进行精准的阅读内容推荐。
今日头条热点内容采集数据说明:本文进行了今日头条-热点内容信息的采集。本文仅以“今日头条-热点内容信息采集”为例,大家在实操过程中,可根据自身需求,更换今日头条的其他内容进行数据采集。
今日头条采集字段详细说明:内容标题,内容来源,内容评论数量,内容发布时间。
步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
2)将要采集的网址URL,复制粘贴到网址输入框中,点击“保存网址”
3)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的信息是这次演示要采集的内容
步骤2:设置ajax页面加载时间
l 设置打开网页步骤的ajax滚动加载时间
l 找到翻页按钮,设置翻页循环
l 设置翻页步骤ajax下拉加载时间
1)网页打开后,需要进行以下设置:打开流程图,点击“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置2秒,这个页面的滚动方式,选择直接滚动到底部;最后点击确定
注意:今日头条的网站属于瀑布流网站,没有翻页按钮,这里的滚动次数设置将影响采集的数据量
步骤3:采集新闻内容
1)如图,移动鼠标选中评论列表的方框,右键点击,方框底色会变成绿色,然后点击“选中子元素”
注意:点击右上角的“流程”按钮,即可展现出可视化流程图。
2)然后点击“选中全部”,将页面中需要需要采集的信息添加到列表中
注意: 在提示框中的字段上会出现一个“X”标识,点击即可删除该字段。
3)点击“采集以下数据”
4)修改采集字段名称,点击下方红色方框中的“保存并开始采集”
步骤4:数据采集及导出
1)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”
说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。
2)采集完成后,选择合适的导出方式,将采集好的数据导出