在做新闻类数据采集的时候,新闻的正文一般都有多个段落。
如果想将正文完全按照原文结构顺序采集下来,并将所有内容合并到一条数据中,可以用文章段落构建循环,然后设置【同一字段多次提取合并为一行】。
一、采集数据
本文将以网易财经新闻采集为例详细说明。
示例网址:http://money.163.com/17/0706/01/COKG34EG002580S6.html
step1:先按照需求提取数据。将每一段文本看做一个列表,按照 列表数据采集的方法,创建循环列表。如下图所示:
step2:启动采集以后发现,得到很多条数据,一段对应一条数据。
这是因为默认的就是【同一字段多次提取分为多行】。
二、设置字段合并
step1:将鼠标移动到下方数据预览中的【字段1】上,点击”…"按钮,可以看到其中一个选项为【同一字段的多行合并】,如果想要将以上多条数据,合并进一行中,我们只需要选择【同一字段多行合并】,点击【应用】保存即可。
step2:再次启动采集,可以看到,多条数据就被合并为一行了,与原始文章结构一样。
编辑:FAN