网址输入功能升级介绍
2018-06-12 18:06:18 阅读量: 30193
本文为大家讲解自定义采集模式中,文件导入大批量网址、批量生成网址、关联任务导入网址的操作方法。
采集数据时,不少用户会碰到这样的情况:
- 自有网址很多,手动输入很麻烦
- 采集目标为大量可规律生成网址的网页
- 列表页和详情页需要分开采集
八爪鱼通过对自定义采集网址输入的升级和优化,有效解决了上述问题,主要是以下三个功能。
1、文件导入大量网址
目前手动输入支持网址数量有限,如果网址数量比较多, 我们可以通过本地文件直接批量导入网址,保存,然后配置规则。
具体操作如下:
在自定义采集主界面,选择从“文件导入”,再选择已有的网址文件,就可以大批量导入
如下图,导入之后,可以预览前100条网址。
使用条件:
1、支持cxv、xls、xlsx、txt文件格式
2、支持100w以内网址 ,超过的自动删除
2、批量生成网址
同个网站中需要同时采集多个页面时候,我们可以利用这个功能批量生成网址,这样可以节省大量翻页或重复搜索的时间,只要符合条件的网址,都可以通过设定好的逻辑自动生成,再利用云采集拆分原理采集任务,可以极大地提升采集效率。
怎么使用网址批量生成的功能呢?
同样在自定义模式入口界面,选择“批量生成”
我们以京东的网页为例:
https://search.jd.com/Search?keyword=iphone&page=3
这是京东iphone作为关键词的第三页网址, 我们可以根据这个格式替换关键词,生成多个产品的网址,
首先鼠标选中需要设置的关键词,然后再点击添加参数
点击以后,可以看到弹出的窗户口中有4种可以编辑变化的参数类型:
数字变化:可设置从某个数字开始,每次递增或递减X位,设置总个数,可设置补零
字母变化:某个字母到某个字母
时间变化:可设置时间段的变化
自定义列表:可放入所需的一些关键词,作为网址参数的一部分
自定义列表
因为此例设置的是关键词,所以参数类型选择“自定义列表”,在下方的框中填入需要采集的关键词参数,比如电脑、手机、鼠标,然后点击确定。
数字变化
同样,选中页码,点击添加参数,设置页码相关的参数。这里参数类型选择数字变化,然后观察页面网址的变化设置具体参数配置,如果我们需要从第1页开始采集,开始值就为1;变化相差1,每次动作递增就为1。假如需要采集11页,结束值就是11,项数就从第1页到11页,共有11项。
参数设置完成以后,可以预览生成的网址。如下图所示
在京东的这个例子中只需要设置这两个参数,下面我们来看一下另外两个
字母变化
同上,字母变化就根据变化规律从a设置到某一需要的字母
时间变化
如上图,选择合适的时间格式,然后设置开始和结束的时间。
注意:
可支持100W以内网址批量生成,超过100w仅生成100w。
批量生成的网址,前100条存储在本地,显示在界面上;>100条的网址存储在云端,不显示在界面上,本地采集或云采集的时候,直接调用存储在云端的网址采集数据。
如果复制此规则,复制后得到的规则仅包含前100条网址,仅采集前100条网址的数据。
3、关联任务导入网址
网址导入还有另外一种方式,可以选择其它任务采集到的网址直接导入,以进行关联采集。比如,一个任务同时采集列表页和详情页,这样就没有办法利用云采集拆分,如果利用关联采集功能,就可以将这个任务变成两个任务:A任务采集列表信息,B任务采集详情信息,两个任务都可以进行云拆分,采集效率就提升了很多(注意,如果采集网站列表页进入到详情页时网址没有发生变化,就不能使用这个方法)
具体操作如下:
在自定义模式入口选择“从任务导入”
我们把被导入的任务称为“源任务”,导入网址后新配置的称为“跟随任务”
然后通过下拉箭头选择采集任务和字段,就可以把源任务采集到的网址完全导入。
注意:导入时必须保证源任务云端有数据。
规则配置完成以后,保存并启动采集时可以选择“跟随启动设置”
随即可从弹窗中选择4种不同的启动方式,来满足不同的采集场景,
源任务需要有一定数据量,跟随任务才能采集到数据,所以可以根据采集情况选择下面4种跟随任务启动方式。
也可以在任务列表里设置跟随启动
注意: 跟随任务是不能设置定时启动的,只能通过源任务触发启动。
启动采集时,如果选择“全量网址采集”,八爪鱼将会采集该任务所有已经导入的网址;如果选择“仅采集预览网址”,八爪鱼将采集该任务最多100条预览网址
温馨提醒:只有旗舰版(以上)套餐用户才支持关联任务导入。去升级旗舰版