天猫商品信息采集
2017-08-18 09:54:01 阅读量: 33360
本文介绍使用八爪鱼采集天猫商品信息(以尿不湿为例)的方法
采集网站:https://list.tmall.com/search_product.htm?q=%C4%F2%B2%BB%CA%AA&type=p&vmarket=&spm=a222r.9220234.a2227oh.d100&from=..pc_1_searchbutton
天猫:天猫原名淘宝商城,是一个综合性购物网站。2012年1月11日上午,淘宝商城正式宣布更名为“天猫”。天猫比普通店铺更有吸引力的是它的服务,它不光是大卖家和大品牌的集合,同时也提供比普通店铺更加周到的服务。
天猫商品信息采集数据说明:本文进行了天猫商品信息(通过搜索商品关键词)的采集。本文仅以“天猫商品信息(通过搜索商品关键词)采集”为例,大家在实操过程中,可根据自身需求,更换天猫的其他内容进行数据采集。
天猫商品信息采集详细说明:商品价格,商品标题,商品月成交数量,商品评价数量。
步骤1:创建采集任务
1)进入主页主,选择“自定义模式”
2)将天猫商品信息链接(https://list.tmall.com/search_product.htm?q=%C4%F2%B2%BB%CA%AA&type=p&vmarket=&spm=a222r.9220234.a2227oh.d100&from=..pc_1_searchbutton)复制粘贴到网站输入框中,点击“保存网址”
注意: 如果网页载入时间过长,内容已经显示,请点击右上角的“X”,停止加载网页。
步骤2:创建翻页循环
1)一旦网页停止加载,我们可以看到产品列表。将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”
注意: 如果部分截图有可视化流程图出现,有的未出现可以通过右上角的流程按钮自由设置。
步骤3:创建列表循环
1)移动鼠标,点击第一个商品和第二个商品。点击后,系统会自动识别页面里的字段内容。在右侧操作提示框中,查看提取的字段,把部分不需要的字段删除,然后选择“选中全部”
注意: 鼠标放在该字段上会出现一个删除标识,点击即可删除该字段。
2) 选择“采集以下数据”
步骤4:提取商品信息
1) 选择“采集以下数据”后,修改字段标题。
注意: 根据采集顺序,当第一页商品采集完然后翻页采集第三页,依此类推….所以我们需要在流程图内把循环采集步骤,拖动到循环翻页流程框内(鼠标左键拖动即可)
拖动后如下所示
2)点击”保存并启动”
3)点击”启动本地采集“
步骤5:数据采集及导出
1)点击”启动本地采集“后,采集器开始采集我们设置的采集字段。采集完成后,会跳出提示,选择“导出数据”
2) 选择“合适的导出方式”,将采集好的商品信息数据导出
3) 这里我们选择excel作为导出为格式,数据导出后如下图