亚马逊商品评论采集
2017-09-01 09:53:53 阅读量: 38445
本文介绍使用八爪鱼采集亚马逊商品的详细评论(以金士顿U盘为例)的方法
采集网站:
https://www.amazon.cn/b/ref=sv_pc_10?ie=UTF8&node=888501051
使用功能点:
l Ajax加载
亚马逊中国:亚马逊中国是一家中国B2C电子商务网站,前身为卓越网,被亚马逊公司收购后,成为其子公司。经营图书音像软件、图书 、影视等。卓越网创立于2000年,为客户提供各类图书、音像、软件、玩具礼品、百货等商品。亚马逊中国是全球最大的电子商务公司亚马逊在中国的网站。致力于从低价、选品、便利三个方面为消费者打造一个可信赖的网上购物环境。
亚马逊商品评论采集数据说明:本文进行了亚马逊商品评价进行采集。首先进入商品热卖推荐的列表页面,然后循环点击每一条商品,进入商品详情页之后采集评价信息。本文仅以“亚马逊商品评价采集”为例,大家在实操过程中,可根据自身需求,更换亚马逊的其他内容进行数据采集。
亚马逊评论采集字段详细说明:用户ID,用户评论星级,用户总体评价,用户评论时间,用户评论内容。
步骤1:创建采集任务
1)进入主界面,选择“自定义采集”
2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”
步骤2:创建翻页循环
1)将页面下拉到底部,点击“下一页”按钮。在右侧的操作提示框中,选择“循环点击下一页”
步骤3:创建列表循环
1)移动鼠标,选中页面里的第一条商品链接。选中后,系统会自动识别页面里的其他相似链接。在右侧的操作提示框中,选择“选中全部”
2)选择“选中全部”后,再选择“循环点击每个链接”,以创建一个列表循环
步骤4:提取商品评价信息
1)创建列表循环完成后,系统会自动点击第一条商品链接,进入商品详情页。用鼠标下拉页面,点击“XX条商品评论”,在右侧的操作提示框中,选择“更多操作”
2)然后接着选择“点击该元素”
3)进入评论详情页面后,把鼠标移动到下面,点击“下一页”按钮。在右侧的操作提示框中,选择“更多操作”
然后接着选择“循环点击单个链接”
4)之后,用鼠标选中第一条商品评论,评价框会变成绿色,其中的字段会变为红色底色。选择右侧操作提示框中的“选中子元素”
5)选择“选中子元素”后,系统会自动识别同类元素,此时页面其他评论框中的字段变为红色底色。接下来,选择右侧提示框中的“选中全部”,页面内所有评论框中的字段均被选中,变为绿色底色。
6)接下来,把鼠标放到每个字段旁边,会有一个删除标识,如下图所示,可以把不需要的字段删除,然后选择提示框中的“采集以下数据”,将整个页面中的评论信息采集下来。
7)要采集的字段会自动添加到上方的数据编辑框中。把右上角的“流程”按钮打开,可以进行字段的自定义命名。然后选择提示框中“保存并开始采集”。
8)选择“启动本地采集”
步骤5:设置Ajax加载
采集过程中会发现数据采集速度较慢,可以回到流程规则中,进行Ajax加载设置。首先鼠标点中流程中的“点击元素”,然后打开“高级选项”,勾选“Ajax加载数据”,设置时间为“3秒”选择“确定”。
步骤6:调整采集流程
根据整个采集流程,正确的采集顺序应该是打开网页—建立商品翻页循环—建立商品列表链接循环—点击进入商品详细信息—进入评论详情页—建立商品评价循环翻页—建立商品评价列表循环—提取所需数据,所以需要对流程进行调整
1)选中整个“循环”步骤(商品链接的循环列表),将其拖入到第1个“循环翻页”步骤和到第2个“循环翻页”步骤之间
拖动完成后,位置如图
2)选中整个“循环翻页”步骤(商品评价的循环翻页),将其拖入到整个“循环”(商品链接的循环列表)步骤中
拖动完成后,位置如图
步骤7:数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据”
2)选择“合适的导出方式”,将采集好的数据导出这里我们选择excel作为导出为格式。