[茶思]另类数据及其在投资中的应用

另类数据(Alternative Data)即非传统数据，有两重含义，第一是指信息本身是非传统的，第二是指通过非传统手段获得的信息。也就是说，另类数据可以是新闻舆情、卫星图像等一般决策场景中不常使用的数据，也可以是亚马逊、淘宝等电商网站上爬取得来的产品销量数据。

基于以下背景，另类数据在投资领域的应用受到越来越多的关注：

量化研究手段在投资领域得到普及，投资趋于中高频。
数据挖掘与分析能力作为投资者的护城河，门槛正在降低，信息优势的价值相对提高。具体表现一是市场有效性的提高，二是因子投资等典型投资策略出现了“因子拥挤”(Factors Crowding)现象，近期Capital Fund Management的研究员还专门发表了文章< Zooming In on Equity Factor Crowding >讨论这个问题。
互联网技术发展使得信息成本降低，部分另类数据落入机构型投资者可承担的价格范围。未来随着5G、物联网技术发展，预计另类数据种类将进一步增加，价格或将进一步降低。
另类数据有其合理性和优势。在学术领域，另类数据是一类很有故事性的研究对象，相关研究已能够发表在Journal of Financial Economics等顶级期刊上（例如< The customer knows best: The investment value of consumer opinions >用亚马逊网站的消费者评论做股票定价）。在产业界，另类数据已得到一定程度的普及应用，并且出现了另类数据的供应商（例如YipitData和Eagle Alpha）。

本文将总结另类数据在投资领域的现状、发展趋势以及前景。

一、另类数据在投资中的应用案例

案例一：从Twitter看市场情绪

2011年发表于Journal of Computational Science的论文< Twitter Mood Predicts the Stock Market >研究了美国社交媒体推特隐含的情绪指标与道琼斯工业指数之间的关系。他们从推特中提取关于情绪指标的关键词，并将这些关键词用模型处理后归为以下6个因子："平静程度"、"警惕程度"、"确定程度"、"热情程度"、"友善程度"、"开心程度" (Calm, Alert, Sure, Vital, Kind, and Happy)。

论文把这些情绪因子与道琼斯指数进行了拟合，发现2008年2月到12月间，6个因子中“平静程度”的变化对预测道琼斯指数最为有效。“平静程度”的变化与公众的焦虑程度有关，公众焦虑程度越低，则“平静程度”越高，这时道琼斯指数就会升高。引入“平静程度”的模型对道琼斯指数涨跌与否的3日预测准确率达到87.6%。

图片来源：Bollen et al.(2011)

### 案例二：卫星图像中的数据价值

Orbital Insight是一家基于卫星图像的数据公司，主要业务是使用深度学习中的机器视觉和图像识别技术大规模分析卫星图像，以推测经济数据。例如，Orbital Insight可以从卫星拍摄的图片中推测中国正在建设的房地产数量，以推测中国的经济发展走势。Orbital Insight在去年还和世界银行合作，提供世界的贫困数据。

Orbital Insight的卫星图像来自好几家公司，包括DigitalGlobe、欧洲卫星公司Airbus、美国航空航天局的Landsat项目，以及新一代卫星公司Planet Labs。为构建深度学习所需要的数据集，Orbital Insight派人手动标记客户所需的识别对象。比如，该公司派人对停车场中的汽车进行手动标记，累积了一定标签数量后，程序便能够较准确地计量出图片范围内车辆的数量。

Orbital Insight两个著名的项目，一是通过计算沃尔玛停车场门口的汽车数量来预测沃尔玛的销售额，二是通过阴影面积分析石油提炼工厂和储存地的卫星图片，推测全球石油储量（可参考相关论文< Automatic Detection and Classification of Oil Tanks in Optical Satellite Images Based on Convolutional Neural Network >）。

图片来源：Orbital Insight网站

类似地专门通过卫星图像提供数据的公司还有RS Metrics。不同于Orbital Insight，RS Metrics更专注于金属和ESG投资。

案例三：来自手机信号的商业活动信息

Thasos通过将手机信号转化为实时位置数据，提供关于商业活动、市场以及经济的信息。有别于卫星图像，手机信号可反映个体在室内的活动情况，因此能够提供更为微观的数据。Thasos也充分发挥其数据特色，将产品重心向分析零售Reits的商业表现靠拢，并会出具年度的零售房地产信托业绩报告。

Thasos的产品包括ConsumerStreams、MallStreams、IndustrialStreams、Attribution并且有在Bloomberg终端上线。

二、另类数据的主要类别

根据数据的产生方式，另类数据可分为主要四类：

个人网络行为产生的数据，如社交媒体、商品评价、搜索引擎上的数据等；
商业活动中产生的数据，如交易记录、信用记录；
科技手段获取的数据，如卫星图片、地理位置、气候变化数据等；
科技手段提取的数据，如利用NLP方法提取的情绪数据，从政府网站监测爬取的数据等。

根据数据的类型，另类数据也主要包括四类：

自然语言数据；
数字图像数据；
地理信息数据；
一般商业数据。

现实场景中，另类数据的来源与属性均具有交叉性。且在实际应用时，一般将各种类型的数据转换为标准化的商业数据来使用。

三、另类数据的潜在优势和问题

信息论中有个著名的“数据处理定理”(data–processing theorem)(Ziv and Zakai, 1973)，核心意思就是说，对数据进行处理，多数情况下会造成信息损失，仅在少数情况下（比如线性变换）使得信息不变，但总之信息不会增加。

金融市场研究的热门领域——”市场有效性问题“认为，充分有效的市场中没有任何投资者能够赢得超额收益。虽然市场始终在某种程度上是不够有效的，但市场效率始终在提升——本文已提到过量化投资领域因子拥挤的问题，McLean and Pontiff(2016)指出，随着具有预测能力的定价因子不断因学术发表而暴露于公众视野，股票价格的可预测性也在被不断破坏。

信息不会凭空增加，而现有信息的价值不断稀释，这是另类数据潜在优势的根本来源。

同时，另类数据存在的一些问题，需要使用者格外关注：

数据与使用场景的匹配性问题。在收集分析另类数据前，最好从逻辑上分析清楚另类数据是否对于投资有所帮助。举个例子，为了更准确地预测鸡蛋价格，某期货交易者计划通过收集全国连锁超市的销售数据以获取更为实时准确的鸡蛋需求信息，然而鸡蛋需求实际上非常稳定，价格的主要驱动因素来自供给面而非需求面，所以这个另类数据收集计划的意义不大。
数据是否有足够的代表性和准确性。典型的另类数据来自对大数据的处理，由于来源丰富，处理得到的数据或许并不具备代表性。仍以以上的期货交易者为例，其计划通过统计各养殖场的母鸡数量估计鸡蛋的供给能力，然而由于统计方法不够科学，样本覆盖率不足，得到的数字或许存在很大偏差。如果这位期货交易者基于“蛋鸡与母鸡的比例为常数”这一假设进行估计，而实际上这一比例有季节性变化，那么得到的估值就存在代表性不足的问题。
另类数据的真实性难以保证。一方面，数据收集过程中，元数据的提供者可能造假，例如大宗商品的数据常通过询价方式收集而来，厂商有动机对数据进行修饰；另一方面，数据处理过程中，由于方法不当，可能造成信息失真，例如在进行自然语言处理时未考虑否定前缀，将“不是很好”理解成了“很好”。
数据来源的稳定性问题。数据格式变更、API改版甚至数据源断更，种种原因均可以导致无法持续使用数据。
另类数据的收集与使用成本问题。另类数据的收集与使用成本不限于购买元数据、雇佣人力等造成的资金成本，还包括分析数据所需的时间成本，以及应用另类数据后投资策略变动、数据源中断等带来的风险成本。

四、另类数据的设计、收集、应用与价值评估

我们将“数据与使用场景的匹配性问题”视为另类数据应用的首要问题，所以建议另类数据应用方案的第一步就考虑清楚方案设计，由专门的行业分析师从行业逻辑出发进行另类数据的需求设计。

数据收集方面，可选策略包括：（1）从数据供应商购买；（2）网络收集并提取；（3）从公开数据源获取并提取；（4）调研获取。其中调研获取手段仅在低频需求场景下可以使用（另类数据当然可以是低频数据，严格来说内幕消息也是另类数据）。无论是从数据供应商购买还是网络收集，都无法保证数据的准确性、真实性和稳定性。相对来说，公开数据源较为可靠且稳定。

总体来说，另类数据的可得性低于传统数据。随着商业模式完善、系统构建以及数据交换生态成型，这种情况会有所改善。但在当下，我们仍建议投资者从投资分析模型入手提升鲁棒性，即对数据输入变化所带来的影响有事先判断，当发生信息集合的变化时及时调整策略（例如将中高频策略调整为低频策略）。

最后，我们要提醒另类数据的潜在使用者，信息的定价单位是其给投资策略带来的收益率而非绝对价格，因此在衡量额外信息带来的收益和成本时，信息带来的收益率提升与不确定性降低、资金规模、策略容量以及数据应用的固定成本和边际成本都应纳入计算之中。

参考文献：

[1] Volpati, V., Benzaquen, M., Eisler, Z., Mastromatteo, I., Toth, B., & Bouchaud, J. P. (2020). Zooming In on Equity Factor Crowding. arXiv preprint arXiv:2001.04185.

[2] Huang, J. (2018). The customer knows best: The investment value of consumer opinions. Journal of Financial Economics, 128(1), 164-182.

[3] Bollen, J., Mao, H., & Zeng, X. (2011). Twitter mood predicts the stock market. Journal of computational science, 2(1), 1-8.

[4] Ziv, J., & Zakai, M. (1973). On functionals satisfying a data-processing theorem. IEEE Transactions on Information Theory, 19(3), 275-283.

[5] McLean, R. D., & Pontiff, J. (2016). Does academic research destroy stock return predictability?. The Journal of Finance, 71(1), 5-32.

posted @ 2020-03-01 19:36 谢寻星阅读(1085) 评论(0) 收藏举报

刷新页面返回顶部

量化对冲和茶