上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 29 下一页
摘要: 前端设计(一) 项目选用的是python的flask框架进行设计 flask轻量级框架流程比较简单 其中web页面的展示就包括 论文的显示 ECCV2018论文信息展示 ICCV2019论文信息展示 两年论文信息比对 包括四个部分 还有一个新闻的主页面 阅读全文
posted @ 2021-05-30 23:34 黄某人233 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 后端流程分析 整体的后端流程设计如下 首先是论文的爬取 本系统的主体是论文的一个展示和论文的信息分析 其中论文的爬取工作就是一个关键 论文的爬取选择的pdf文件爬取 pdf文件爬取之后进行文档格式转换 然后对txt文件进行论文文本的操作 其中包括 论文的字段截取 论文的词频统计 论文的主要词汇词云图 阅读全文
posted @ 2021-05-29 23:31 黄某人233 阅读(50) 评论(0) 推荐(0) 编辑
摘要: 生成词云图 词云图的生成其中有很多字段 在网上有很多的详解 关于其中的各个字段 然后这写字段中一些对于本项目而言 有一些比较重要的字段需要修改 其中就包括 图片宽高的选取 width=400, # 默认宽度height=400, # 默认高度 边缘的控制 margin=0, # 边缘 margin= 阅读全文
posted @ 2021-05-28 23:28 黄某人233 阅读(57) 评论(0) 推荐(0) 编辑
摘要: 数据导入数据库(二) 链接在导入数据库之后 还有一个就是标题关键词和摘要的显示 这一部分在爬取到pdf文件之后有一个就是 将pdf文件转化为txt格式 txt格式之下的文档内容包括全文 然后没有图片 可以通过对txt文档的一个字符段截取来完成这个工作 def insert(path): with o 阅读全文
posted @ 2021-05-27 23:22 黄某人233 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 数据导入数据库(一) 数据在存入文件之后这是对于数据的清洗得到的是更有价值的信息 然而对于文献的阅读还是需要全文的展示 所以需要导入数据库 首先是原文的链接 原文的链接在当初爬取过程中使用过 通过原文链接下载pdf文件 所以直接在pdf文件下载的时候直接将链接存入数据库 # db = MysqlHe 阅读全文
posted @ 2021-05-26 23:18 黄某人233 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 词频统计1.对词汇换行情况进行处理由于在英文论文中常常出现一个单词换行的情况,导致有些词汇分裂,因此,在处理文本之前,对这种情况进行处理。处理的思路是:逐行读取纯文本文件,然后横向合并。借助正则表达式对词汇换行的情况进行处理。def open_file(file_path): with open(f 阅读全文
posted @ 2021-05-25 16:23 黄某人233 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 数据清洗(三) 由于直接生成的英文纯文本文档格式比较杂乱,比如需要做一些缩写拆解,大小写还原,格式还原等一系列工作,比如 new_text = text# patterns that used to find or/and replace particular chars or words# to 阅读全文
posted @ 2021-05-24 16:21 黄某人233 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 数据清洗(二) 首先清洗文件的目的是为了统计词频和关键词的抽取 然后为了完成这个目的 文件的形式以一个文件存储所有的论文文本最为合适 省去了对文件的逐个打开操作 而且加快了运行效率 首先是逐个打开文件 def open_file(file_path): with open(file_path, en 阅读全文
posted @ 2021-05-23 09:30 黄某人233 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 数据清洗(一) 在完成PDF文件格式转换后,论文PDF文件由一个一个TXT文件保存 然后在逐个对论文文件进行清洗工作 然后有利于之后的关键词抽取和词云图生成 阅读全文
posted @ 2021-05-22 09:25 黄某人233 阅读(69) 评论(0) 推荐(0) 编辑
摘要: PDF文件转换为TXT文件 import sysimport importlibfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPag 阅读全文
posted @ 2021-05-21 09:21 黄某人233 阅读(191) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 29 下一页