使用 NLP 从赢得电话中提取有价值的见解

使用 NLP 从赢得电话中提取有价值的见解

好的,在您阅读任何内容之前,只是想让您知道,这是我的第一篇博客,祝我好运 😃

NLP——自然语言处理。

NLP 是新兴技术之一,非常适用于文本分析、情感分析、提取实体、词性等等。

盈利电话会议 — 盈利电话会议是电话会议或网络广播,上市公司在其中讨论报告期的财务业绩。该名称来自每股收益,损益表中的底线数字除以流通股数 - 资源 .

与此同时,我喜欢……

好的。因此,我将向您展示如何在 python 中使用 NLP 从赢得电话中提取有用的信息。

我已经下载了一个盈利电话( 关联 ) 并格式化为 .csv 文件 ( csv_file )。

df = pd.read_csv(“/content/earning_call_google.csv”)

df.head(10)

Google’s earning call converted to .csv file.

通过使用 通过...分组(), 所有分析师的演讲都将被分组,并创建一个名为 ANALYSTS 的名称。

df_groupby = df.groupby(['designation']).apply(lambda group: ' '.join(group['speech']))

df = df.append({“参与者”:”分析员”, “指定”:”分析员”, “角色”: “all_analysts”, “演讲”: df_groupby[0]}, ignore_index=True)

A new row has been added at the end.

我不会在这里展示所有的源代码来让读者感到厌烦,而是我想展示一些基于用 NLP 概念处理的数据的可视化。

使用 TfidfVectorizer 的 WordCloud

在这里,主要目标是识别最常用的单词,并在电话会议中各个发言人的演讲中突出显示它们。

Frequently used words by the respective speakers.

命名实体识别

使用 斯派西 库中,我能够提取 3 位演讲者 CEO、CBO 和 CFO 的 ORG、PERSON 和 GPE(位置)等实体,然后使用条形图进行比较。

Comparing the number of entities used in the speech by CEO, CBO and CFO

应用于词的情绪分析

使用 CountVectorizer 从文本中计算单词的实例和 Loughran麦当劳词典 , __ 这对于单词列表及其各自的情感非常流行。最后,比较两位演讲者的演讲情绪,即CEO vs ANALYSTS。

Sentiment analysis comparison for words b/w CEO and ANALYSTS.

特定和非特定的前瞻性陈述(Sfls、NSfls)

使用 finBERT-tone __ Hugging face 也是一个流行的模型,我在其中确定了哪些陈述是前瞻性的,哪些不是,然后比较了各个演讲者演讲之间的分数,即 CEO vs CBO vs CFO。

Forward-looking statement's comparison.

同时,正在阅读本文的开发人员会说,

所以最后,这里是写的源代码 谷歌公司 .

我们可以使用我们拥有的数据类型并根据要求执行更多分析。

我要感谢 Spacy 和 finBERT,它们是最先进的模型,它们帮助实现对原始语料库和 Loughran Mcdonald 词典的有用分析,用于 NLP 社区的情感词列表。

希望这个博客有用,不要忘记指出错误和评论。

感谢阅读,加油。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/40074/45113017

posted @ 2022-09-30 17:47  哈哈哈来了啊啊啊  阅读(33)  评论(0编辑  收藏  举报