采集网站:

http://weekend.ctrip.com/around/shenzhen/taocan/st1216#ctm_ref=gs-100000792-290801-30-02-B001|02|1216

使用功能点:

分页列表及详细信息提取

 

携程网:携程是一个在线票务服务公司,创立于1999年,总部设在中国上海。携程旅行网拥有国内外六十余万家会员酒店可供预订,是中国领先的酒店预订服务中心

 

数据说明:本文进行了携程网-深圳周末游-深圳周末短途游报价列表下的所有旅游信息采集。本文仅以“携程网-深圳周末游-深圳周末短途游报价列表下的所有旅游信息采集”为例。大家在实操过程中,可根据自身需求,更换携程网的分类进行数据采集。

 

携程网采集详细采集字段说明:携程短途游路线、携程短途游价格、景点、可选酒店、天数。

 

步骤1:创建采集任务

1)进入主界面,选择“自定义模式”

1

2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”

2

 

步骤2:创建翻页循环

1)将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”

3

 

步骤3:创建列表循环

1)移动鼠标,选中页面里的第一条旅游线路的链接。选中后,系统会自动识别页面里的其他相似链接。在右侧操作提示框中,选择“选中全部”

4

2)选择“循环点击每个链接”,以创建一个列表循环

5

 

步骤4:提取旅游线路信息

1)在创建列表循环后,系统会自动点击第一个旅游线路的链接,进入旅游线路详情页。点击需要的字段信息,在右侧的操作提示框中,选择“采集该元素的文本”

6

 

2)继续点击要采集的字段,选择“采集该元素的文本”。采集的字段会自动添加到上方的数据编辑框中。选中相应的字段,可以进行字段的自定义命名。自定义命名完成后,点击“保存并开始采集”

7

3)选择“启动本地采集”

8

 

步骤5:数据采集及导出

1)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将采集好的数据导出

9

2)这里我们选择excel作为导出为格式,数据导出后如下图

10