本文给大家演示单个文本输入及点击登录进行数据采集的方式。


有些网站是需要登陆账号之后才能进行采集数据的,这里文章所讲示例采集数据网址为

https://list.tmall.com/search_product.htm?q=%C1%AC%D2%C2%C8%B9&click_id=%C1%AC%D2%C2%C8%B9&from=mallfp..pc_1.1_hq&spm=875.7931836%2FB.a1z5h.2.vxUxbA


上述网址如果是需要登陆才能采集的,就需要做一个登陆流程。


登陆地址为https://login.tmall.com/我们这个网址里面需要输入用户名、密码登陆进去然后打开前面的网址采集数据。

步骤1  登陆八爪鱼7.0采集器→点击新建任务→自定义采集,进入到任务配置页面:


然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。


1


接下来步骤是输入用户名密码了,八爪鱼模拟的是人的操作行为,所以这一步过程也很简单


步骤2 在浏览器中鼠标点击用户名输入框→在右边弹出的提示里面选择“输入文字”→输入自己的用户名→选择“确定”

同样的方式输入密码


这样输入用户名密码的步骤就完成了


2


接下来模拟人工手动点击登陆按钮,完成这一步就会进入到登陆之后的页面采集我们最终需要的数据了

 

步骤3  在浏览器中鼠标点击登陆按钮→在右边弹出的提示框里选择“点击该按钮”

这时候就会看到浏览器会跳转到登陆页面,这时登陆流程便做好了


3


前面的步骤都完成之后打开我们最终需要采集数据的网址再做之后的采集流程


步骤4  点开页面上的“流程”按钮,流程显示出来之后,我们往流程里拖入一个打开网页的步骤,打开最终采集的天猫网址。可以看到浏览器打开之后的网址就已经是登陆的网址了


4


本教材重点是教用户怎么通过输入用户名、密码方式登陆网站,至于后面的数据采集步骤按照前面新手入门的方法提取即可。

 

小贴士:另外有些网站这个登录框其实是iframe的登录框,iframe即html标签,会创建包含另外一个文档的内联框架(即行内框架),含义是网页中的网页。 例如上面天猫的登陆地址,八爪鱼获取的是当时操作时的iframe,但是天猫有防采集措施,如果登录框的xpath有变化的话,就需要通过下面的方式获取登录框的详细URL直接输入这个URL做登陆流程。 我们可以通过火狐获取登陆框的详细地址,然后直接输入这个详细的地址进行流程设计。


在火狐浏览器上鼠标右键登录框→选择此框架→查看框架信息→地址 这个地址即为登录框的真实地址,获取到这个地址之后在八爪鱼规则里输入这个地址做规则即可。


Iframe真实框架