使用 NLP 从赢得电话中提取有价值的见解
使用 NLP 从赢得电话中提取有价值的见解
好的,在您阅读任何内容之前,只是想让您知道,这是我的第一篇博客,祝我好运 😃
NLP——自然语言处理。
NLP 是新兴技术之一,非常适用于文本分析、情感分析、提取实体、词性等等。
盈利电话会议 — 盈利电话会议是电话会议或网络广播,上市公司在其中讨论报告期的财务业绩。该名称来自每股收益,损益表中的底线数字除以流通股数 - 资源 .
与此同时,我喜欢……
好的。因此,我将向您展示如何在 python 中使用 NLP 从赢得电话中提取有用的信息。
我已经下载了一个盈利电话( 关联 ) 并格式化为 .csv 文件 ( csv_file )。
df = pd.read_csv(“/content/earning_call_google.csv”)
df.head(10)
Google’s earning call converted to .csv file.
通过使用 通过...分组(), 所有分析师的演讲都将被分组,并创建一个名为 ANALYSTS 的名称。
df_groupby = df.groupby(['designation']).apply(lambda group: ' '.join(group['speech']))
df = df.append({“参与者”:”分析员”, “指定”:”分析员”, “角色”: “all_analysts”, “演讲”: df_groupby[0]}, ignore_index=True)
A new row has been added at the end.
我不会在这里展示所有的源代码来让读者感到厌烦,而是我想展示一些基于用 NLP 概念处理的数据的可视化。
使用 TfidfVectorizer 的 WordCloud
在这里,主要目标是识别最常用的单词,并在电话会议中各个发言人的演讲中突出显示它们。
Frequently used words by the respective speakers.
命名实体识别
使用 斯派西 库中,我能够提取 3 位演讲者 CEO、CBO 和 CFO 的 ORG、PERSON 和 GPE(位置)等实体,然后使用条形图进行比较。
Comparing the number of entities used in the speech by CEO, CBO and CFO
应用于词的情绪分析
使用 CountVectorizer 从文本中计算单词的实例和 Loughran麦当劳词典 , __ 这对于单词列表及其各自的情感非常流行。最后,比较两位演讲者的演讲情绪,即CEO vs ANALYSTS。
Sentiment analysis comparison for words b/w CEO and ANALYSTS.
特定和非特定的前瞻性陈述(Sfls、NSfls)
使用 finBERT-tone __ Hugging face 也是一个流行的模型,我在其中确定了哪些陈述是前瞻性的,哪些不是,然后比较了各个演讲者演讲之间的分数,即 CEO vs CBO vs CFO。
Forward-looking statement's comparison.
同时,正在阅读本文的开发人员会说,
所以最后,这里是写的源代码 谷歌公司 .
我们可以使用我们拥有的数据类型并根据要求执行更多分析。
我要感谢 Spacy 和 finBERT,它们是最先进的模型,它们帮助实现对原始语料库和 Loughran Mcdonald 词典的有用分析,用于 NLP 社区的情感词列表。
希望这个博客有用,不要忘记指出错误和评论。
感谢阅读,加油。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明