【数据挖掘】学术文献信息抽取

1、需求

　　a>先下载一篇病原微生物相关的论文，分析出其中的属性

　　b>读取论文，定位关键词

　　c>NLP识别句子的意义，进行信息获取，尝试理解信息，整理相关属性资料 https://blog.csdn.net/sdu_hao/article/details/105292176

2、流程梳理、csdn

　　1/搜索相关论文，获得对应的pdf文档

　　2/读取PDF内容，转为TXT文件

　　　　pip install pdfplumber

　　　　>>读取其中的表格，转为csv输出--camelot

　　　　　　python库camelot安装及使用中的一些注意事项

　　3/确定关键字，获取当前的句子

　　　　把txt按照句子划分行

　　　　正则表达式定位满足几个关键词/https://www.jianshu.com/p/41d06a4ed896

　　　　（python挖掘关键词几个都符合）/信息抽取 https://www.jianshu.com/p/a1994336af2d

　　　　生物信息文献数据库构建与软件Web自动发布何莹

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD2009&filename=2009038794.nh&uniplatform=NZKPT&v=792rwfvbxQgmWx5jLiluhcXFs_df2XzhmTr_OytiMAJFeidjeP6CRcNKdzjhWIba

　　　　即可存入此数据

　　4/数据统计

　　　　文本分词　　　　

　　　　数据清理

　　　　转变成普通的txt格式型

　　　　再进行词频统计

3、论文搜集

　　KeyWord：论文、挖掘、论文挖掘、语义解析、信息抽取

　　1、基于Python语言的学术论文数据挖掘与分析——以医疗人工智能相关学术论文为例 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2021&filename=XMTJ202105010&uniplatform=NZKPT&v=3ewPG-u9tc0Pr_olRzUs4QBOb1NagD8jZc13DOAn1nLcVG03J4RIA_4fz24A7jLl

　　2、期刊编辑发表论文情况的文本挖掘与分析https://kns.cnki.net/kcms/detail/detail.aspx?filename=BJXB201904019&dbcode=CJFQ&dbname=CJFDTEMP&v=t2BCYR_QG_w56Jpi43GoOHom_hyW6VKlqBmLEiSISLke5ZbVtu2LCAKI15eE1S3g

　3、基于文本语义的篇章结构分析方法

　　https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=SCPD&dbname=SCPD2020&filename=CN107145479B&uniplatform=NZKPT&v=JaDWgEoeRHvux5PHmfn2X1fjDAfziwIYJROFMAmwycBXl3DOylet80gok8kZqY_E

“步骤1,数据获取；101获取纯文本数据,使用开源工具将待处理机器不可读格式文档转为机器可读的TXT格式；

步骤2,正文抽取；102噪声内容过滤,过滤对结构抽取任务而言的噪音内容,包括：空行、页眉页脚、表格内容；103目录和正文分割,对于有目录的文本,进行目录和正文的分割；目录部分识别出来后将其所有行以及之前行的内容剔除,仅保留其后的正文内容；

步骤3,标题识别和抽取；

步骤4,层级结构构建。”

　　4、基于文本挖掘的中文期刊数据分析系统的设计与实现 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD202101&filename=1021534093.nh&uniplatform=NZKPT&v=vLKrbSZ6pC4BtFiHZKakVQlUHQz6sqFDfaE4IhJeABKJt5c1UUqyl3bQDkGJUTla

　　5、文本挖掘关键词智能提取系统

https://www.cnblogs.com/ljrj/p/6595076.html

“目前，关键词自动提取方法分为两类：

1)关键词分配，预先定义一个关键词词库，对于一篇文章，从词库中选取若干词语作为文章的关键词;

2)关键词抽取，从文章的内容中抽取一些词语作为关键词。”

　　6、基于词频统计分析国内外文本挖掘的研究热点 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CPFD&dbname=CPFDLAST2018&filename=ZGUH201710001060&uniplatform=NZKPT&v=VKhW5uI-vAkTnUE3CU04Za5wgKoiE_vCCzP-serlihtF1tkXVgrR5QsAImG2ijN0fgW33H4FwZs%3d

　　7、中文期刊论文数据治理工作实践——以挖掘中国知网题录及PDF文档为例

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CPFD&dbname=CPFDLAST2018&filename=ZGUH201710001060&uniplatform=NZKPT&v=VKhW5uI-vAkTnUE3CU04Za5wgKoiE_vCCzP-serlihtF1tkXVgrR5QsAImG2ijN0fgW33H4FwZs%3d pdf处理方法