如何高效批量获取上市公司的年报数据?
最近知乎上有位叫「路过银河」的财经财报会计话题大V写了一篇用八爪鱼东方财富简易模板“批量获取上市公司财报”的文章。
干货满满,且有详实的操作步骤可参考。
在此特别分享给各位爪爪!以下是原文:
如何高效批量获取上市公司的年报数据?
经常看我文章的粉丝都知道我有个自称,叫大表哥。当然,大表哥不是江西人,而是因为在很多上市公司,从事财务报表工作的人员往往被戏称为表哥、表姐。
几年前,大表哥脱离财务,去了法务部门,再也不用加班做报表了。参加工作十多年来,第一个可以休假的元旦,我竟然6点钟就醒了,习惯性的想去加班,然后发现自己已经不是财务人员了。
直到有一天,古怪精灵的韭菜精对我说,你帮我看看珠江控股的年报。
年报?我擅长啊。于是我去新浪财经、腾讯证券、网易财经、东方财富等网站找到了这家公司的年报。然后看到了财务人员拙劣的财技,写了一篇文章,给韭菜精好盆友看。
再后来,我想看更多上市公司的年报,作为吃Excel饭多年的选手,我很想把它们都整理成统一格式。
怎么办?
那时候我还不知道有Wind这种金融客户端,当然更不知道它一年6万+的服务费。
我决定写个爬虫程序。用哪种语言写比较好呢?
查了查论坛,发现有一句话很合我的口味:Ruby是世界上最好的语言。于是,我去学Ruby。
一个月后,我写的第一个Ruby爬虫程序可以顺利的跑起来了。
从运行情况看,程序还算稳定,从腾讯证券和网易财经获取我想要的数据,然后写到Excel里。
第一个程序读取3000多家上市公司的全部数据要几个小时,考虑到爬取的是所有公司上市以来的所有财报,这个速度也是可以接受的。
比较满意的是,我可以轻松的拿到任意时间段的任意财务指标的excel格式。
但是,过了几天,我又发现了新问题。
那就是Ruby太小众了,尤其是遇到财务指标分析的函数时,几乎没有任何资料,英文的都没有。
怎么办?人生苦短,我用Python。
我把Ruby教材放了放,又买了本Python教材,从零开始学习基本语法。
Python的好处是有很多财经库,许多函数不需要自己算,可以直接到库里拿。
又过了一个月,我的Python程序终于跑起来了。
后来,我在知乎发帖子对上市公司的财务数据进行大数据总结的时候,有人问我,你不用Wind吗?
Wind?我一脸懵逼。后来在某金融机构的赞助下,我也有了Wind,这是后话。
又有人问我,你不是个会计吗?是啊,我是个会计啊,怎么学会编程的?我就学会了,我也不知道为什么啊!
所以,问题就来了,我可能比较容易的学会编程并且快速的获取这些数据,但是普通的财务人员和投资者怎么办?
虽然我一直在思考这个问题,但除了花精力学编程或者花钱买Wind,似乎没有太好的办法。
在我帮韭菜精盆友统计中报预增的数据时,感觉Wind整合的并不算太好,反而倒是免费的东方财富网排序非常好用,我决定把东方财富网的数据爬成Excel。
这次我没有用Ruby或者Python,而是找了个好用的爬虫工具—八爪鱼。
八爪鱼是什么?章鱼?乌贼?
八爪鱼是一款免费的专为零基础编程人员设计的网页采集器,凭借自主研发的大规模分布式云采集平台,融合大数据技术和人工智能技术,可以简单轻松抓取互联网所有公开数据,可以为企业和个人提供数据分析能力和行业场景解决方案,极大地提高个人和企业的效率和竞争力。
这个工具的风格很合我意,除了实用的功能,一点都不花哨。就差像我一样,用Dos风格的界面了。
比如我想批量采集利润表,数据源用东方财富网。
网站内找所需的具体模板,例如此处的利润表。
可看到其采集哪些字段
预览要设置的参数
示例数据展现模板的采集结果
按要求填写日期,支持多个,用回车进行换行
保存并启动云采集
静静等待数据,见证奇迹的时刻:
然后导出
满满的数据,全都是爱啊
看到这里,我觉得,本来就是几分钟的工作量,我又何苦去学两个月的Ruby和Python呢?
回到Excel,就是我擅长的部分了。
我发现,八爪鱼在知乎还有官方号:
@八爪鱼采集器(点击可关注)
感谢你们,做了个这么好用的工具~~~
服务提示