预测利润警告:NLP应用于电话会议记录分析

发布于2017年7月31日

以下研究的目的是向读者介绍自然语言处理(NLP),以及如何使用它来预测利润预警风险. “利润预警”被定义赌博排行前十网站告知其收益将达不到分析师预期的事件. 盈利预警事件引发了一场相当剧烈的股市回调,投资者可以利用这一机会,确定即将下调季度/年度收益预期的行业和公司.

NLP的文献在过去几年里显著增长,主要涵盖了对SEC报告和电话会议记录的情绪分析. 然而, 基于NLP和企业活动(如利润预警)的论文非常稀缺. 特别地,这项研究试图对以下几个问题给出一些答案:

  • NLP工具对股票研究分析师有用吗?
  • 电话会议记录是否包含其他信息?
  • 我们是否可以构建帮助标记利润预警风险的工具?
  • 我们可以使用NLP工具预测利润预警吗?

SuNLP工具的成功采用可以提高股票研究分析师在卖方和买方的平均生产率. 目前,大量的资源在投资领域被浪费了,因为一般的分析师都被要求阅读, 每个季度手工整理和分析超过40家公司的电话会议记录,从中提取有用的投资见解. 卖方股票研究业务的衰落, 以及买方纯基础投资策略的表现不佳, 是否有足够的证据表明,积极型投资经理迫切需要采用更创新的数据处理方式,以应对定量策略和被动型“智能贝塔”(smart-beta)工具带来的速度.

 

剖析了利润预警

利润预警被定义赌博排行前十网站告知其收益将达不到分析师预期的事件. 盈利预警通常在盈利报告发布前两周或两周以上宣布. 读者可以通过下面的要点和图表快速了解利润警告的后果. 以下图表显示了2013年1月至2016年8月初英国股市245个盈利预警的平均收益分析。

  • 事前价格势头疲软平均:, 在警告发出前的6个月里,房价开始下跌6%, 比富时全指数低7点.6%.
  • 突发事件价格调整当前位置盈利预警当天的平均价格跌幅为19.2%.
  • 粘性的消极情绪: 在发出警告后的两到三个月里,油价明显进一步下跌, 可能与更多的收益消息相吻合.
  • 持久表现平平平均而言,12个月后,房价下跌没有出现明显的逆转. 44.5%的股票从盈利警告后的第一天到一年后损失10%或更多.
  • 独立或多重利润预警?当前位置超过三分之一的公司可能会再次发布盈利预警, 这或许可以解释随后的一些表现不佳的原因.

PW

下表显示了不同的从业者和学者关于利润预警的论文. 在过去20年里,不同的作者发现,围绕着利润预警公告的模式,证明了完美的资本市场理论是错误的. 例如, Kearns和Whitley(2005)发现,75%的盈利预警股票在公告年度内出现进一步的利润率恶化,更容易增加财务杠杆, 削减资本支出(资本支出)和减少股息支付. Chang和Watson(2007)指出,小盘股在盈利预警事件中的表现更差,而内部人士(管理层), (最大的投资者)在活动前卖出.  Aubert和Louhichi(2009)发现盈利预警股票在事件日期前后经历异常高的波动性和交易量.

压水式反应堆

 

《赌博排行前十网站》

自然语言处理(NLP)是计算机科学的一个领域, 人工智能, 而计算语言学则是研究计算机与人(自然)语言之间的相互作用, 特别是, 对计算机进行编程,使其能够有效地处理大型自然语言语料库. NLP研究尤其稀缺, 尤其是在金融, 在过去的五年里,大量的文献已经被发表了.

BFNLP

下表显示了一些论文,它们帮助我们准备了利润预警NLP模型. 其中最重要的发现, 陈, De,  Hu和Hwang(2014)证明了Loughran和McDonald(2011)编制的负面词汇的出现频率是一个很好的预测强或弱收益的指标. 松本, Pronk和Roelofsen(2006)强调了电话会议记录的长度, 尤其是其问&其中,也起到了设定盈利基调的重要作用. McKay Price, Doran, Peterson, Bliss(2011)证实Q&管理层的文字基调很重要,尤其是对不派发股息的公司. Zhou(2014)指出,表现不佳股票的ceo在电话会议发言时,更倾向于将责任归咎于外部因素. Bushee, 战争机器, Taylor(2016)强调股票价格反映良好的电话会议基调比消极基调更早, 哪些与行为金融学报告的认知失调等偏见相符. 最后但同样重要的是, Borochina, Ciconb, DeLislec和McKay Price(2017)发现,管理层和分析师之间的语气差异引发了不确定性, 解释股票表现不佳的重要原因是什么. 下表包含了这些和其他NLP相关的研究论文,它们被用于开发Profit Warning NLP模型:

NLPres

 

Web抓取:对数据的追求

NLP利润预警模型数据是使用Python中的web报废技术获得的.  Python是web报废的首选,主要有三个原因:1)它允许非常容易地操作字符串, Ii)它拥有许多报废库,使网络收获更容易和直观, iii) Python是一种编译语言,因此它比解释型语言(如R. 两个主要的Python库被用来收集数据:Scrapy和硒.

进行这一分析所需的数据主要来自两个来源:

  • RTT新闻(www.rttnews.com): RTT新闻是一个内容提供商, 就各种各样的主题提供全面和及时的信息. 该公司提供了有关过去9个月美国利润预警的公开数据.
  • 寻求Alpha搜索.com): Seeking Alpha是一个著名的投资研究平台, 具有广泛的股票覆盖, 资产类别, etf和投资策略. 本网站包含美国股票和美国存托凭证的公开电话会议记录。.

PW_Scrape

 

EDA:数据描述和特征工程

获得了200多只股票的成绩单和基本数据, 然而,为了控制特定的因素(事件时间),在NLP分析中使用了较窄的样本, 部门, 行业, 等):

  • 分析中只考虑美国公司,因此adr被排除在外.
  • 培训组只包括工业部门内的股票,主要是资本货物公司.
  • 17年第一季度至16年第一季度期间的事件分析(利润预警发生).
  • 分析的会议电话记录是利润预警事件触发前的3个季度:16年第一季度, 16年第二季度和第三季度的日历周期.
  • 分析了93份电话会议记录,其中42份记录来自未来盈利预警股票,51份记录来自健康股票.

因为语言的泛音和词汇在不同的部门之间是不同的, 有必要选择一个特定的行业来建立自然语言处理模型的基础. 除了, 主题重要性的时间差异, 此外,缺乏9个月以上的可用利润预警数据, 限制NLP分析的一个障碍是一年的时间跨度. 最后, 迄今为止,在评价英语书面文本方面,NLP工具和图书馆的发展更为迅速, 因此,由于之前的研究表明,管理团队说话者的母语不同,NLP的精密度和准确性也不同,因此adr被排除在赌博10大排行网站集之外.

每次电话会议都分为两部分:“管理讨论”(MD)和“Q&A". 正如这篇文章的研究讨论中提到的, 一些学者和实践作者发现,这两部分都可以提供重要的NLP输入. 一方面, “管理讨论”只关注管理团队传递的信息——没有分析人员的干扰——因此可以获得对语言复杂性的纯粹度量, 语义, 词汇和公司首席执行官和他的团队传达的整体情绪. 另一方面,“Q&A”在寻求获得电话会议的整体情绪或收集管理层和分析师之间的讲话语气差异时非常有用.

过程

超过90个特色是从整个电话会议记录和MD和Q中创造出来的&一个部分. 在此分析中使用的Python nlp相关库是textstat, NLTK, 维德, pySentiment, 宽大的和Gensim. 为了生成与文本物理属性(大小)相关的可靠和显著的预测类别,我们测量了几个NLP维度, 单词量, 音节数等), 文本复杂度(如烟雾指数等可读性指数), 填充), 词汇复杂度(难词的数量, 布朗字典), 语义和句法情感指数. 创建新的NLP特性时的两个主要挑战如下所示:

  1. 除了语义含义:只使用“情感标签”来分类句子或段落是很危险的. 例如,  “我很幸福”和“我不是很幸福”这两句话都会被归类为“积极的”,因为“幸福”这个词的存在。. 在运行NLP分析时,像“not very”这样的程度修饰词和包含足够语法含义的POS (Part-of-Speech)标签是需要注意的关键项目. 使用Python库(如NLTK或维德)有助于解决学位修改和POS问题, 然而,仍然有部分文本变得更有挑战性,因为它总是更有挑战性的处理短文本, i.e. 简短的新闻或社交媒体简短的帖子,而不是长文件或文字记录.
  2. 情感词典的选择很重要:当要分析的文本与财务相关时,不建议使用标准英语词典将单词分为负面或正面. Loughran和麦当劳(2011)提供一个清晰的证明一般情绪单词列表应用到会计和金融的话题会导致高的误分类率:75%的消极词汇在哈佛IV TagNeg字典的消极词汇通常不是消极的金融背景. 例如, “我”这样的词, “癌症”, “轮胎”或“资本”通常用来指特定的行业. 这些词不能预测文件或财经新闻的基调,只能为情绪的衡量增添噪音,削弱其预测价值.

幸运的是, 拉夫兰和麦克唐纳(Loughran 和 McDonald)创建了一个财务词典,其中定制了会计和金融领域的负面和正面词汇列表. LM词典还有一个额外的好处,它可以显示出传统的正负二分法之外的兴趣维度. 等, 两个值得注意的补充是“不确定性”词汇表,它试图衡量不精确的一般概念(没有明确提及风险)。, 以及可以用来识别潜在法律问题情况的“诉讼性”词汇表. 在利润预警NLP模型中使用了LM字典,以使NLP情绪分类方法适应企业和财务相关的世界.

 

无监督机器学习

当进行EDA(探索性数据分析)作为前一状态时,可以进行更深入的NLP分析, 最好是进行一些初步的描述性分析,以熟悉数据并提取线索,这些线索在以后开发机器学习模型时可能会有用. Word Cloud是第一个实现的方法,尽管没有太大的成功. 下面的两个图表显示了对盈利预警公司(左)和健康公司(右)的Word Cloud分析,它们的前30个词汇词汇表没有显著差异.

从Word Cloud分析中提取的唯一相关见解来自于比较这两类的“不确定性”词汇(使用LM财务词典标签系统):利润预警公司在谈论“不确定性”时使用的词汇比健康公司更平衡. 这些发现与Lee(2014)的观点一致,他强调缺乏自发性——经理人遵循精心准备的脚本,使用更复杂的词汇和词汇多样性——是股票表现不佳的主要因素之一.

WC

聚类分析的结果有时也具有误导性,如下图所示. 第一个情节比较了语言学中两个著名的可读性指标:

  • FE_idx(轴): Flesch Reading Ease index(1948)的创建主要是为了分析国防部(Defense Department)的材料和人寿保险文件. 最初,索引的范围是0-100(很容易让人混淆),但它已经被颠倒过来,以均匀化其他可读性指标.
  • ARI_idx(轴): 自动可读性指数(1967)是为一般文本可读性目的而开发的. ARI公式输出的数字接近理解文本所需的职等水平.

第一印象是误导,因为当使用两个集群时,它似乎是两个不同的组, 特别是使用FE_idx时. 不过, 第二个图表显示FE_idx (y轴)和响应变量(y轴)之间有很多重叠, “1”为盈利预警,“0”为健康公司). 因此,无论聚类方法建议的是什么子群, 它们与成为盈利预警公司的可能性毫无关系.

聚类

从聚类的其他两个特征中提取出更有成效的见解:大小Q&一个部分和困难的单词.  同样,下面的第一个图表用红色和蓝色显示了如何有两个不同的子组. 下一步是再次确认这两个簇与盈利预警概率(Target)相关:

Clus2

Clus3

将Size_QA和DC_dif_words与我们的Target变量进行比较,似乎这两个变量在一定程度上解释了盈利预警(1)和非盈利预警(0)公司之间的差异,主要有两个结论:

  • 首先,公司在发布盈利预警时,使用的是比健康的英语更简单的“平实”英语. Bushee, 战争机器, Taylor(2016)论证了管理团队如何使用复杂的信息来传达信息(积极的)或混淆(消极的).
  • 第二点与霍兰德的观点一致, Pronk和Roelofsen(2008)的证据表明负的远期收益和管理者的沉默,所以我们在上文关于Size_QA的发现证实,较短的QA会议更有可能发生在盈利预警候选人身上.

从赌博10大排行网站数据集创建了超过90个特征, 主成分分析(主成分分析)在总结特征信息和消除残差多重共线性效应方面发挥了关键作用. 下图显示了93个预测因子中只有17个(主成分)可以解释95%以上的总方差. 这些pc后来被用于logit模型,该模型提供了最好的分类准确率之一,同时确保了合理的复杂性,以最小化过拟合风险.

主成分分析

主成分分析变量变换可能难以解释,因为新的非相关特征向量(PCs)是由原始特征生成的. 因此, 另一种分析变量重要性的方法是Ridge回归, 套索回归或梯度增强变量重要性分析. 下面的条形图显示了基于树的XGB模型(极端的梯度增加)的特征重要性,这是NLP利润预警模型中使用的最好的机器学习方法之一,下面的特征非常突出:

  • 管理初始演讲中积极情绪的百分比(v_pos_MD)与整体文本情绪得分(v_comp)是一个改变游戏规则的特征。. 这两个特性是使用NLTK和维德库生成的, 在句子层面的文本中,哪些包含了经验推导的情感影响措施. 维德合并了词序敏感的术语之间的关系,如程度修饰词又名加强词, 辅助词, 或程度副词.
  • Coleman Liau Index (CL_Grade_idx)是所有可读性指标中最具决定性的指标. 该指数创建于1975年,目的是确定教科书的可读性. CL_Grade_idx的结果相当于读者正确理解特定文本所需要的教育程度.
  • 使用Loughran-McDonald财务词典的积极词汇(pos_perc_abs)的百分比在将一家公司归类为盈利预警候选人方面发挥了重要作用.  盈利预警管理团队开始在官方公告发布前的两到三个季度,通过措辞非常微妙地降低预期. 人类读者很难察觉到不同语气的积极, 因此,NLP工具在这一领域非常有用,可以消除行为偏见,如保守主义偏见(合并新信息的缓慢), 认知失调(不愿接受文字记录的负面部分)或确认偏见(只注意文字记录上的好消息)
  • 特定问&会话指标很重要:难词、音节和单词的数量以及Q&在使用XGB模型对公司进行分类时,中性语气评分是与文本复杂性和情绪相关的其他解释之一,可以显著增加价值.

VI

 

机器学习-测试模型

采用两种主要措施来决定哪种模型更有效地将赌博10大排行网站集观察数据分类为“利润预警”或“健康”:

  • 误分类错误率:误分类的观察值所占的比例. 这个错误率是用下一个公式计算的:

ME

  • Log-Loss错误率:度量实际标签分布与分类器概率之间的差异. 具有100%准确性的最佳分类器的日志丢失为0, 而将每个观察随机分配到k = 2标签(利润警告或健康)的分类器将有-log(1/2) = 0的log损失.69315. log-loss的计算公式如下:

LL

使用伯努利贝叶斯对30多个不同的模型进行了测试, 多项贝叶斯, 分对数回归, 基于树(装袋, 随机森林, 提高, 极端的梯度增加), 支持向量机(Support Vector Machine)和下面显示的11个模型通过了第一次初步的酸性测试:优于随机分类方法,相当于产生的日志丢失错误率低于0.69315(虚线红色线). 称为“总数”的模型使用从预测器总数中计算出的全部特征或pc(主成分), 而名为“文本”的模型只有文本复杂性预测器作为输入(可读性指数, 难词数量, 等)和那些以“Syn/Sem”结尾的只使用解释性变量来传达语法, 语义和情感. “主成分分析 Logit Total”和“XGB Text”是两个准确率在80%以上的最佳模型.

 

在第二阶段,使用Python的Brew库将每种类型的更强大的模型组合在一起, 集成和叠加预测模型的综合工具,以提高模型的独立预测能力. 由于采用了多数投票规则准则,因此类的分配取决于大多数模型对观测结果的预测. 达到更好的预测效果, 模型集成采用三种不同的准则:

  1. 集合1:使用上面两段定义的使用“总”预测器的前三个模型. 该集成准则旨在在分类过程中尽可能多地利用数据,并使用RF (随机森林) Total, XGB (极端的梯度增加) Total和主成分分析 Logit (Principal Components) Total.
  2. 集合2:最大限度地减少泛化误差和日志丢失的前三种模型. 泛化误差又称“泄漏”,是从测试数据集和赌博10大排行网站数据集获得的误分类率之间的差值. 选择的模型是RF文本,主成分分析 Logit Total和XGB文本.
  3. Ensemble 3: Log-Loss错误率最低的前三种模型. 所选型号为RF Total (0.4202), 主成分分析 Logit Total (0.3587)和XGB文本(0.5277).

合奏2:Min GE & Log-Loss”是最平衡的模型,它的Log-Loss错误率(0.3676),误判率最低(0.1578 or 84.22%的准确率). “集合1:全部数据”产生最低的Log-Loss,但在测试错误方面(0.2103误分类率). 尽管“总体2”的结果比单个模型“主成分分析 Logit Total”的结果略差, 集成模型是首选,因为它们提供了比依赖单一方法更好的多样化预测方法.

一个有趣的和实际的观察是,尽管有大约15%的误分类率, “Ensemble 2”项目组合管理的有效性作为筛选短候选人的工具仍然很高. 解决这个难题的办法如下:被归类为“盈利预警”的股票,可能最终不会发布盈利预警公告, 但结果来自像Jha这样的作者, 布莱恩, 蒙塔古(2015)提供的证据表明,被误标为“利润预警”的股票,至少是那些盈利势头前景较弱的公司,更有可能在短期内表现不佳.

 

NLP & 利润警告-答案和未来项目

在这篇文章的开始,几个问题是关于测量和预测利润预警风险的NLP效用. 我们得到的教训是,NLP工具有助于提高生产率, 节省了宝贵的时间,并将投资行为偏差最小化,因为它们允许分析师和投资组合经理披露嵌入到收益电话会议记录中的额外信息.

在未来的分析中,将实施若干项扩展,例如包括其他部门和行业, 将期限延长至至少五年, 对管理团队不同成员(CEO)进行标记和独立分析, 首席财务官, 首席运营官, 等等)和分析师,以及创建更复杂的建模方法,如神经网络.

总结, NLP工具在独立的基础上, 或根据数字特征补充定量模型(利润率百分位水平), 销售增长, 收益比率, 等) , 是否可以显著加强股票筛选过程,以识别因盈利预警风险或至少在可预见的未来盈利疲软而做空的候选人.

点击这里查看Github中的代码

 

关于作者

卡洛斯·萨拉斯纳胡拉

Carlos是一个对投资和技术充满热情的人,他拥有多/空股票分析和组合管理经验,结合了他的基本原理, 量化和数据科学技能,以提供卓越的回报. 他的核心力量在于...
View all posts by 卡洛斯·萨拉斯纳胡拉 >

相关文章

留下你的评论

杰里米 2019年7月6日
如果你不想费劲去刮擦成绩单的话, 您可以在http://www获得预处理的数据集.hqinsight.com/
凯伦C 2017年的11月2日
写得太棒了,真不敢相信我撞上了. 这也是一个快速发展的领域. 您在介绍中列出了gensim作为使用的工具之一, 但我没有找到后续的提及. 你能详细说明一下你是如何使用它的吗? 我还想知道你是否愿意分享你的成绩单代码? 谢谢!!
诺里 2017年8月5日
谢谢你的建议,它真的很有用.
卡洛斯·萨拉斯纳胡拉 2017年4月8日
感谢德里克。... 你教我R给了我一个很好的优势:)
德里克。 2017年4月8日
好的文章卡洛斯!

按类别查看帖子


我们最近的热门文章


按标签查看帖子

# python # trainwithnycdsa 2019 airbnb 亚历克斯Baransky 校友 校友面试 校友的评论 校友关注 校友的故事 校友 API 应用程序 艺术家 aws 美丽的汤 最好的赌博10大排行网站营 2019年最佳数据科学 最佳数据科学赌博10大排行网站营 2020年最佳数据科学赌博10大排行网站营 最好的排名 大数据 书推出 赌博10大排行网站营 赌博10大排行网站营的校友 赌博10大排行网站营准备 加州 癌症研究 顶石 职业生涯 职业生涯的一天 citibike 聚类 编码 课程演示 课程报告 D3.js data 数据分析师 数据科学 赌博10大排行网站 数据科学赌博10大排行网站营 数据科学工作 数据科学评论 数据科学家 数据科学家的工作 数据可视化 深度学习 演示日 折扣 dplyr 雇主网络 工程特性 金融 财务数据的科学 “绿带运动” 获得工作 ggplot2 googleVis Hadoop 希格斯玻色子 招聘 招聘合作伙伴活动 招聘合作伙伴 行业专家 老师的博客 教师面试 工作 就业安置 工作 Jon Krohn 摩根大通(JP Morgan Chase) Kaggle Kickstarter 套索回归 导致数据Scienctist 导致数据科学家 传单 线性回归 逻辑回归 机器学习 地图 matplotlib 医学研究 满足团队 meetup 网络 神经网络 神经网络 新课程 nlp 纽约 纽约数据科学 赌博10大排行网站 纽约市公开的数据 纽约DSA 纽约DSA校友 在线 在线赌博10大排行网站营 在线培训 开放数据 画家 熊猫 兼职 投资发展 预测 Prework 编程 普华永道 python Python数据分析 python机器学习 python scrapy python web抓取 python webscraping Python车间 R R数据分析 R语言 R编程 R闪亮的 r工作室 R可视化 R车间 R-bloggers 随机森林 排名 建议 推荐系统 回归 远程 远程数据科学赌博10大排行网站营 Scrapy scrapy可视化 seaborn 情绪分析 闪亮的 闪亮的仪表板 火花 特殊的 特别的夏天 体育 统计数据 流媒体 学生面试 学生展示 支持向量机 Switchup 团队 TensorFlow 证明 tf-idf 顶级数据科学赌博10大排行网站营 推特 可视化 网页抓取 周末的课程 会发生什么 词云 word2vec XGBoost yelp