原因:网页内容多,页面信息量大,采集到一定数据量时,缓存过多导致内存分区爆掉。

解决:将任务进行拆分,分多个规则进行采集。如先采集URL再通过URL循环采集详情页。

 

提取URL的操作教程:/tutorial/zdytq_7.aspx?t=1

URL循环的操作教程:/tutorial/urlxh_7.aspx?t=1