BBC英文文章采集
2018-01-11 16:39:50 阅读量: 15966
本文介绍使用八爪鱼采集(以BBC 的Asia News为例)的方法。
采集网站:http://www.bbc.com/
采集的内容包括:文章标题,文章正文
使用功能点:
l 分页列表及详细信息提取
步骤1:创建BBC英文文章采集任务
1)进入主界面,选择“自定义模式”
2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
步骤2:创建列表循环
1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。选中页面里的第一张图片,系统会自动识别页面内的同类链接,选择“选中全部”
2)选择“循环点击每个链接”
3)设置超时和ajax滚动
步骤3:采集小说内容
1)选中页面内要采集的正文标题(被选中的内容会变成绿色),选择“采集该元素的文本”
2)选中页面内要采集的正文内容(被选中的内容会变成绿色),选择选中全部,
选择“采集该元素的文本”
3) 设置合并字段,选择自定义数据字段,选择自定义数据合并方式,
然后选择同一字段多次提取合并为一行。
4) 修改字段名称
5)选择“启动本地采集”
步骤4:BBC英文文章数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据。选择“合适的导出方式”,将采集好的BBC英文文章数据导出
2)这里我们选择excel作为导出为格式,数据导出后如下图