金融数据分析:另类数据采集与分析案例实操
金融行业本质上是一场由数据驱动的信息化战争,从数据中及时捕获有价值的交易信号,挖掘出独特的超额收益Alpha因子,是投资致胜的关键因素。
在过去,投资者更多的是依靠传统金融数据进行投资决策。传统金融数据包括股票/债券的交易数据、上市公司的年报/财报、金融机构的研报数据、政府的统计数据、银行用户的借贷数据等。
但由于这些数据的来源基本一致(大型金融资讯平台:万德/彭博等),且对这些数据进行量化研究的方法趋同,使得投资者掌握的信息越来越同质化,很难获得差异化优势,获得超额收益的能力也就降低。新的数据源、新的分析视角成为非常迫切的需求。
另类数据顺势崛起,在帮助投资者打开多维分析视角,挖掘独特超额收益Alpha因子方面发挥巨大价值,受到越来越多的投资者青睐。
看几个例子:
Thasos数据公司,通过监控Tesla工厂里员工手机的信号多少,来预测特斯拉的量产情况,进而预测股价;
“聪明的投资者”利用天气大数据,预测未来农产品产地的气候对产量的影响,从而研究农产品期货价格的走势;
美国一批“AI智能投资者”通过监控淘宝、天猫、京东、唯品会等电商平台上每一个商品的价格与销售数量,准确获知这些在美国上市的中国电商公司的营收情况;
通过某家餐饮企业的外卖订单量、微信上用户对于企业的评价等社交数据,来判断企业的经营情况和信用情况。
今天就来仔细聊聊另类数据。
一、什么是另类数据
另类数据,目前没有统一明确的定义,泛指区别于传统金融数据的,有利于投资者进行投资决策的有价值信息。分为以下三大类:
个人产生数据:社交网络信息、电商平台评价、搜索记录、购物喜好等。
商业过程数据:商业运输、物流数据、信用卡使用记录、订购、预定数据、购买支付数据等。
传感器数据:卫星数据、GPS定位数据、车辆轨迹、运动轨迹、穿戴设备数据等。
可以看到,另类数据主要是互联网、物联网数据。互联网的高速发展,围绕人类和商业的行为几乎都可以数字化,积累沉淀大量的个人和商业过程数据。物联网技术则让原本不被感知的物理世界成为可数据化的分析对象,逐步形成了大量的物理数据资产。
二、另类数据的特点
与基本面、财务、历史行情等传统金融数据相比,另类数据具备数据量大、实时性高、数据种类多的特点,是对传统金融数据的重要补充,为投资者提供更广泛的交易思路、更多维的分析角度。
体量大:数据规模与传输量巨大。数据以极快的速度积累。根据 IDC 的一份报告,2018 年全球有 33ZB 的数据,而这个数量预计在 2025 年会增长到 175ZB。其中绝大部分分布在互联网各个网站中。
实时性高:数据的获取和传输是实时或者接近实时。以上市公司营收信息为例,传统方式是从年报/中报中获得。年报集中于3-4月披露,中报集中于7-8月披露,具有时间延后性。而通过实时监测此公司去年全年线上销售情况,投资者在1月就能知晓此公司上一年营收情况。
数据种类多:另类数据的形式结构很多样。有数值、图片、文本、音频、视频等多种数据类型,结构化的、半结构化的、非结构化的都有。尤其是非结构化的文本型数据近年来猛增,是重要的挖掘研究对象。
三、另类数据的获取
因为另类数据具有数据量大、实时性高、数据种类多的特点,获取难度也比较高。金融机构一般通过以下3种方式获取另类数据:向另类数据供应商直接购买、自建爬虫团队获取、使用数据采集软件获取。
其中使用数据采集软件成本效益最明显,前期只需投入很少的资金与人力,即可快速开始探索另类数据。当然,市面上的数据采集软件百花齐放,采集方向、采集能力和服务水平都不尽相同,需要仔细甄选。
八爪鱼是通用的网页数据爬取软件,拥有行业领先的数据采集能力,能够很好地解决另类数据体量大、实时性高、数据种类多的采集痛点。近年来,我们已经服务了很多金融客户,帮助他们快速获取互联网上的各种另类数据,辅助投资决策。
下图是八爪鱼采集软件界面,展示东方财富网-股吧-帖子内容采集模板。像这样的采集模板,我们已经储备了很多个,基本覆盖主流的金融网站,大家有兴趣可以去免费体验。
接下来分享2个使用八爪鱼采集另类数据的真实案例。
四、八爪鱼采集另类数据的案例
案例1:采集股吧3000+股票下实时更新的评论,研究股民情感联系股价。
股吧是东方财富网旗下股票社区,是公众股民快速获取有效信息和发表主观看法的重要平台,每天产生大量的讨论帖和跟帖评论。从这些讨论帖主题和跟帖评论中,可以窥见股民对某只股票/市场的投资情绪(看涨/看跌),进而预测股票价格的波动趋势。
我们就曾帮助某知名券商采集股吧3000+股票下实时更新的全部评论,为其研究股民投资情绪,进而预测股票价格的波动趋势提供充沛数据源。
具体采集需求:
① 3000+股票评论分开采集,单独入库。
② 评论实时更新,需第一时间将每只股票更新的评论全部采集下来。
八爪鱼解决方案:
① 制作1个股吧股票评论采集任务,利用任务复制功能,快速生成3000+任务,每个任务中存放不同的股票URL,实现快速上线。
② 使用云集群的定时+多节点高并发采集策略,在十几分钟内将每只股票更新的评论全部采集下来。
特别说明一下,除了示例中的股吧这个平台外,雪球热帖、知乎回答等平台的讨论帖和评论都是可以使用八爪鱼进行采集的。
案例2:第一时间采集1000+基金产品的净值,支持自身数据、投研、代销等业务发展。
基金投资是一种通过汇集众多投资者的资金,交给银行保管,由基金管理公司负责投资于股票和债券等证券,以实现保值增值目的的一种投资工具。基金门户网站需要在交易日清算后第一时间获取各个基金产品的净值,从而支持自身数据(通过自己的网站/终端向投资者及时提供第一手数据)、投研(为个人或机构提供投顾服务,为其推荐高净值基金产品、优质基金经理等)、代销等业务发展。
八爪鱼就曾帮助某知名私募基金门户网站第一时间将1000+基金产品每日更新的净值采集下来,维系其相关业务正常运转。
具体采集需求:
① 1000+基金产品分布在各个基金网站,每个网站都需访问采集。
② 基金净值每个交易日清算后更新,需在更新后第一时间采集下来。
八爪鱼解决方案:
① 使用八爪鱼,每个网站的采集任务配置方法是一致的,2-3天即可配置完1000+基金网站的采集规则。
② 使用云集群的定时+多节点高并发策略,在每个基金网站交易日清算更新基金净值后,第一时间将其采集下来。
如果您想了解更多八爪鱼金融采集解决方案,请添加我们的顾问微信:banxianCEM,预约演示:
服务提示