一名60后爬虫老友的自白|精选投稿
你可能会觉得,爬虫是年轻人的玩物,玩爬虫的都是90后80后年轻人。也可能会觉得,互联网时代带给你极大的便利,但对于父辈们,却是硬生生地阻挡在外的。
但曾经不会上网的爸妈也学会了在社交网络上晒美食晒风景,也会发红包轰炸。他们之中更有一部分人,正以极大的热情去撕裂互联网世界的围栏,用行动去打破身上所谓的“时代烙印”。
就像我们今天要讲的故事——一名零基础的60后,一步步从互联网小白自学成为了爬虫老手。
“这个过程并不容易,但年龄并不是不努力的借口,无关晚不晚,只关乎你想不想。”
接下来跟紧脚步进入他的独家专访:
1、“非典”给了我接触互联网的机遇
说我也玩爬虫,玩大数据,对方总会一脸疑惑的提问:你是八零后吗?不是!难道是七零后?错!不会是六零后吧?恭喜你,答对了!
很庆幸你把我年轻化了,本人确确实实是六零后,算得上正宗的爬虫“老”手!
当然,你们疑惑的是我也玩八爪鱼,我疑惑的是为什么大家都会有一种玩爬虫就该是年轻人的“刻板印象”?
说到这里,虫友会发问,“你是网络业界人士吧?”并不是的,说来惭愧,2002年“非典”之前,我对网络一窍不懂,知之甚少,对电脑更是听说过,没见过,就别提如何操作了。
说起来我得感谢“非典”了,因为它让我接触到了网络(因为当时不上班,有时间到机房学习),所以那段时间我天天泡在机房里,算是我的互联网启蒙时代吧。那时的微机配置是486、512兆硬盘,如果你不信,那只是说明你还年轻。
2、四十无惑?其实是不进则退
我是去年9月偶然接触到了八爪鱼的,当时第一印象就是:啥东西?看看再说,这一看不要紧,还真上瘾了。一直以来我都是个对新鲜事物无抵抗的人,可以说从人群中看了八爪鱼一眼,它就开始占据我所有的业余时间,对八爪鱼的研究也曾达到了废寝忘食的境界。
整个学习过程可以说是反复又曲折,一开始我按官网教程看了试,试了看,没想到第一次做的规则居然能把数据采集出来,真是高兴坏了。可惜好景不长,当按自己的要求去实战一些网站时,我就叹气了,为什么?采集失败、重复、漏采、不翻页、死循环,这些问题一哄而上困扰我,有什么解决办法吗?
我只能反复地琢磨官网视频教程、论坛、QQ群,仔细的看、认真的看、看了再看。半月之后我才意识到自己走了弯路,为何?1+1没学会,3*2能会吗?得从基础学起,不能想着一蹴而就。
所以接下来我下载了官网所有教程,按部就班来学习,边学习边练习边做笔记,初级学完了学中级,再进阶学高级,把笔记分析、对比、综合,最后找到不同规则的异同。实战教程看了无数遍,脑海总会响起一句话:“各位同学,大家好,我是二瘦子”,相信玩八爪鱼的虫友们也感同身受。
斗鱼直播也一个没落下,看懂了吗?其实我是一头雾水的,Xpath不懂,正则表达式不会,采集数据错乱、漏采,怎么办?只能硬着头皮继续,根据官网的学习推荐慢慢开拓HTML、TML、网页代码、标签、元素、属性、属性值这些新大陆。
看了一遍,不懂,再看,还是不懂,不懂也要看,继续看,看了五六遍终于有点眉目了,逐渐理解了概念,结合官网对应教程,终于有所头绪了。恰逢又遇到了斗鱼直播,每次开播都第一个严守。
现在终于可以高兴地跟大家宣布,如今写xpath不在话下;翻页、点击元素,小菜一碟;循环列表,攻破;抓取数据,拿下。
看似容易,但其实xpath我便花了一个月的时间去摸索,整个学习过程也持续几个月有余。虽然过程有些乏味,但我始终保有热情,才成就了现在的小菜一碟。
3、步步为营,把眼光放得更高一点
因为八爪鱼接触了数多多,没赶上你们开淘宝店的热潮,我在数多多客服的引荐下,也开了一个数据交易店铺,店铺名为“平安幸福”(暴露年纪的名字,你一定不陌生)。
有人问为什么你一个六零后还瞎折腾这些新鲜玩意?说来也幸运,我对一切新鲜事物保持着弱冠年纪的热情和求知欲,在高速发展的互联网时代,我也希望能把握趋势。平安幸福”命名的初衷是好记,另一个意思是愿大家都能平安健康。
其实我是一名人民教师,采集数据只是业余爱好,虽然目前在数多多的盈利还不值一提,但我想我是享受这个过程的。如果你有数据需求,在数多多搜索店铺“平安幸福”,也许我能帮助你!
当然,比我更加优秀资深的虫友大有人在,我只想告诉大家无论什么时候开始起跑都不晚,世上无难事只怕有心人,不要轻易给自己画下终点线。
服务提示