BBC英文文章采集

2018-01-11 16:39:50 阅读量： 16090

本文介绍使用八爪鱼采集（以BBC 的Asia News为例）的方法。

采集网站：http://www.bbc.com/

l 分页列表及详细信息提取

1）进入主界面，选择“自定义模式”

2）将要采集的网址复制粘贴到网站输入框中，点击“保存网址”

1）在页面右上角，打开“流程”，以展现出“流程设计器”和“定制当前操作”两个板块。选中页面里的第一张图片，系统会自动识别页面内的同类链接，选择“选中全部”

2）选择“循环点击每个链接”

3）设置超时和ajax滚动

1）选中页面内要采集的正文标题（被选中的内容会变成绿色），选择“采集该元素的文本”

2）选中页面内要采集的正文内容（被选中的内容会变成绿色），选择选中全部，

选择“采集该元素的文本”

3）设置合并字段，选择自定义数据字段，选择自定义数据合并方式，

然后选择同一字段多次提取合并为一行。

4）修改字段名称

5）选择“启动本地采集”

1）采集完成后，会跳出提示，选择“导出数据。选择“合适的导出方式”，将采集好的BBC英文文章数据导出

2）这里我们选择excel作为导出为格式，数据导出后如下图