上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 20 下一页
摘要: #-*-coding:utf-8-*- # @Time :2021/4/22 7:08 # @Author:shuaichao # @File :.py # @Software: PyCharm from bs4 import BeautifulSoup #网页解析,获悉数据.231 import 阅读全文
posted @ 2021-06-03 08:51 帅超007 阅读(69) 评论(0) 推荐(0) 编辑
摘要: #-*-coding:utf-8-*- # @Time :2021/4/17 14:58 # @Author:shuaichao # @File :.py # @Software: PyCharm from bs4 import BeautifulSoup #网页解析,获悉数据.231 import 阅读全文
posted @ 2021-06-03 08:45 帅超007 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 后端流程分析 整体的后端流程设计如下 首先是论文的爬取 本系统的主体是论文的一个展示和论文的信息分析 其中论文的爬取工作就是一个关键 论文的爬取选择的pdf文件爬取 pdf文件爬取之后进行文档格式转换 然后对txt文件进行论文文本的操作 其中包括 论文的字段截取 论文的词频统计 论文的主要词汇词云图 阅读全文
posted @ 2021-05-28 21:30 帅超007 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 生成词云图 词云图的生成其中有很多字段 在网上有很多的详解 关于其中的各个字段 然后这写字段中一些对于本项目而言 有一些比较重要的字段需要修改 其中就包括 图片宽高的选取 width=400, # 默认宽度height=400, # 默认高度 边缘的控制 margin=0, # 边缘 margin= 阅读全文
posted @ 2021-05-28 21:06 帅超007 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 数据在存入文件之后这是对于数据的清洗得到的是更有价值的信息 然而对于文献的阅读还是需要全文的展示 所以需要导入数据库 首先是原文的链接 原文的链接在当初爬取过程中使用过 通过原文链接下载pdf文件 所以直接在pdf文件下载的时候直接将链接存入数据库 # db = MysqlHelper(databa 阅读全文
posted @ 2021-05-25 21:04 帅超007 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 词频统计1.对词汇换行情况进行处理由于在英文论文中常常出现一个单词换行的情况,导致有些词汇分裂,因此,在处理文本之前,对这种情况进行处理。处理的思路是:逐行读取纯文本文件,然后横向合并。借助正则表达式对词汇换行的情况进行处理。def open_file(file_path): with open(f 阅读全文
posted @ 2021-05-22 21:50 帅超007 阅读(58) 评论(0) 推荐(0) 编辑
摘要: #-*-coding:utf-8-*- # @Time :2021/4/17 14:58 # @Author:shuaichao # @File :.py # @Software: PyCharm import gzip from bs4 import BeautifulSoup #网页解析,获悉数 阅读全文
posted @ 2021-05-22 08:44 帅超007 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 在完成PDF文件格式转换后,论文PDF文件由一个一个TXT文件保存 然后在逐个对论文文件进行清洗工作 然后有利于之后的关键词抽取和词云图生成 首先清洗文件的目的是为了统计词频和关键词的抽取 然后为了完成这个目的 文件的形式以一个文件存储所有的论文文本最为合适 省去了对文件的逐个打开操作 而且加快了运 阅读全文
posted @ 2021-05-21 20:57 帅超007 阅读(263) 评论(0) 推荐(0) 编辑
摘要: #-*-coding:utf-8-*- # @Time :2021/4/22 7:08 # @Author:shuaichao # @File :.py # @Software: PyCharm from bs4 import BeautifulSoup #网页解析,获悉数据.231 import 阅读全文
posted @ 2021-05-15 18:32 帅超007 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 按照另一种json网址爬取 #-*-coding:utf-8-*- # @Time :2021/4/22 7:08 # @Author:shuaichao # @File :.py # @Software: PyCharm from bs4 import BeautifulSoup #网页解析,获悉 阅读全文
posted @ 2021-05-13 08:12 帅超007 阅读(85) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 20 下一页