基于结巴分词的论文文章分词

从资料库中获取基本词源知识图谱的第一步。通过开源的中文分词算法库实现了任意文本段落的中文分词,可以得到其中包含的中文词组。

开源的中文分词包有很多,这次选用的分词算法库是结巴分词,它是非常流行的中文分词包,有多个语言的版本,这次采用了java版的。从结巴分词的github的主页上下载代码后,根据例子,填写少量代码就可以实现任意文本的分词。具体代码如下图,包括读取文件,调用结巴分词分析的类,执行分词,输出分词结果,保存到文件。得到的分词结果里包含词组的名称和出现的概率,可以用来做词云图。其中分词算法采用了tf-idf方法,它是一种基于统计的方法,具体原理看相关文献。

有了分词结果以后就是可视化,做成词云图是比较常用的方法。做词云图的库和网站很多,这里采用了基于网页的方法,把分词结果上传到https://worditout.com,即可作图,作图结果如下。

 

“传统的地质建模方法以地质统计学建模为主流 基于变差函数的地质统计学在诸多领域特别是油气藏建模领域发挥了巨大作用 多点地质统计学二十年来也发展迅速并得到大量的工业化应用 但基于统计的建模属于数据驱动性建模方法 对数据依赖性非常强 无法从根本上体现地质规律 基于沉积过程的建模方法以真实的地质作用过程为控制方程模拟沉积历史 模拟结果更加符合地质规律 随着计算机性能的提升和算法的优化 将有力补充甚至取代基于地质统计学的方法 也成为主流的地质建模方法 ”

 

做成词云图比较简单,要想建立知识图谱,还需要获取这些词之间的关系,后续将继续研究。目前这个方法可以为知识库做点贡献。

参考资料

https://worditout.com/word-cloud/create

https://github.com/huaban/jieba-analysis

posted @ 2022-08-21 10:13  Oliver2022  阅读(28)  评论(0编辑  收藏  举报