05 2021 档案

摘要:前端设计(一) 项目选用的是python的flask框架进行设计 flask轻量级框架流程比较简单 其中web页面的展示就包括 论文的显示 ECCV2018论文信息展示 ICCV2019论文信息展示 两年论文信息比对 包括四个部分 还有一个新闻的主页面 阅读全文
posted @ 2021-05-30 23:34 黄某人233 阅读(32) 评论(0) 推荐(0) 编辑
摘要:后端流程分析 整体的后端流程设计如下 首先是论文的爬取 本系统的主体是论文的一个展示和论文的信息分析 其中论文的爬取工作就是一个关键 论文的爬取选择的pdf文件爬取 pdf文件爬取之后进行文档格式转换 然后对txt文件进行论文文本的操作 其中包括 论文的字段截取 论文的词频统计 论文的主要词汇词云图 阅读全文
posted @ 2021-05-29 23:31 黄某人233 阅读(57) 评论(0) 推荐(0) 编辑
摘要:生成词云图 词云图的生成其中有很多字段 在网上有很多的详解 关于其中的各个字段 然后这写字段中一些对于本项目而言 有一些比较重要的字段需要修改 其中就包括 图片宽高的选取 width=400, # 默认宽度height=400, # 默认高度 边缘的控制 margin=0, # 边缘 margin= 阅读全文
posted @ 2021-05-28 23:28 黄某人233 阅读(62) 评论(0) 推荐(0) 编辑
摘要:数据导入数据库(二) 链接在导入数据库之后 还有一个就是标题关键词和摘要的显示 这一部分在爬取到pdf文件之后有一个就是 将pdf文件转化为txt格式 txt格式之下的文档内容包括全文 然后没有图片 可以通过对txt文档的一个字符段截取来完成这个工作 def insert(path): with o 阅读全文
posted @ 2021-05-27 23:22 黄某人233 阅读(47) 评论(0) 推荐(0) 编辑
摘要:数据导入数据库(一) 数据在存入文件之后这是对于数据的清洗得到的是更有价值的信息 然而对于文献的阅读还是需要全文的展示 所以需要导入数据库 首先是原文的链接 原文的链接在当初爬取过程中使用过 通过原文链接下载pdf文件 所以直接在pdf文件下载的时候直接将链接存入数据库 # db = MysqlHe 阅读全文
posted @ 2021-05-26 23:18 黄某人233 阅读(83) 评论(0) 推荐(0) 编辑
摘要:词频统计1.对词汇换行情况进行处理由于在英文论文中常常出现一个单词换行的情况,导致有些词汇分裂,因此,在处理文本之前,对这种情况进行处理。处理的思路是:逐行读取纯文本文件,然后横向合并。借助正则表达式对词汇换行的情况进行处理。def open_file(file_path): with open(f 阅读全文
posted @ 2021-05-25 16:23 黄某人233 阅读(97) 评论(0) 推荐(0) 编辑
摘要:数据清洗(三) 由于直接生成的英文纯文本文档格式比较杂乱,比如需要做一些缩写拆解,大小写还原,格式还原等一系列工作,比如 new_text = text# patterns that used to find or/and replace particular chars or words# to 阅读全文
posted @ 2021-05-24 16:21 黄某人233 阅读(45) 评论(0) 推荐(0) 编辑
摘要:数据清洗(二) 首先清洗文件的目的是为了统计词频和关键词的抽取 然后为了完成这个目的 文件的形式以一个文件存储所有的论文文本最为合适 省去了对文件的逐个打开操作 而且加快了运行效率 首先是逐个打开文件 def open_file(file_path): with open(file_path, en 阅读全文
posted @ 2021-05-23 09:30 黄某人233 阅读(57) 评论(0) 推荐(0) 编辑
摘要:数据清洗(一) 在完成PDF文件格式转换后,论文PDF文件由一个一个TXT文件保存 然后在逐个对论文文件进行清洗工作 然后有利于之后的关键词抽取和词云图生成 阅读全文
posted @ 2021-05-22 09:25 黄某人233 阅读(73) 评论(0) 推荐(0) 编辑
摘要:PDF文件转换为TXT文件 import sysimport importlibfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPag 阅读全文
posted @ 2021-05-21 09:21 黄某人233 阅读(194) 评论(0) 推荐(0) 编辑
摘要:语法 以下是 compile() 方法的语法: compile(source, filename, mode[, flags[, dont_inherit]]) 参数 source -- 字符串或者AST(Abstract Syntax Trees)对象。。 filename -- 代码文件名称,如 阅读全文
posted @ 2021-05-20 09:11 黄某人233 阅读(104) 评论(0) 推荐(0) 编辑
摘要:glob文件操作函数 glob是python自带的一个操作文件的相关模块,由于模块功能比较少,所以很容易掌握。用它可以查找符合特定规则的文件路径名。使用该模块查找文件,只需要用到: “*”, “?”, “[]”这三个匹配符; ”*”匹配0个或多个字符; ”?”匹配单个字符; ”[]”匹配指定范围内的 阅读全文
posted @ 2021-05-19 09:04 黄某人233 阅读(158) 评论(0) 推荐(0) 编辑
摘要:Python replace()方法 这是一个比较使用的一个字符串替换函数 这个用处广泛 参考菜鸟教程 描述 Python replace() 方法把字符串中的 old(旧字符串) 替换成 new(新字符串),如果指定第三个参数max,则替换不超过 max 次。 语法 replace()方法语法: 阅读全文
posted @ 2021-05-18 22:12 黄某人233 阅读(295) 评论(0) 推荐(0) 编辑
摘要:Python format 格式化函数 参考菜鸟教程 链接如下 https://www.runoob.com/python/att-string-format.html Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。 基本语法是通过 { 阅读全文
posted @ 2021-05-17 21:22 黄某人233 阅读(48) 评论(0) 推荐(0) 编辑
摘要:写入pdf文件 现在已经到了最后的部分 其中直接将上一部分请求的pdf内容保存到自己的文件路径中就可以了 if not os.path.exists(PDF_path): with open(PDF_path,'wb') as f: print('正在抓取:'+title) f.write(resp 阅读全文
posted @ 2021-05-15 21:52 黄某人233 阅读(62) 评论(0) 推荐(0) 编辑
摘要:pdf文件爬取 昨天已经爬取了所有的超链接和标题 然后现在开始拼接然后进行下一步的爬取 其中已经将全部的超链接 和 标题 保存 然后进行遍历就可将全部的文件爬取 首先 是本地链接的拼接 上一步是得到了论文的一个链接 链接可以直接请求响应然后获得内容 标题是作为爬取下来的pdf文件的内容文件文件名 所 阅读全文
posted @ 2021-05-14 21:15 黄某人233 阅读(208) 评论(0) 推荐(0) 编辑
摘要:pdf文件爬取 首先分析此论文网站的网站结构 我选取的是2018年的ECCV论文 首先进入后 是所有的一个论文总览 然后为了实现一个自动爬取 需要首先截取到他的一个链接 查看后他的一个论文的所有链接都是包含在一个dl中的 然后dl中有好多的dd标签和dt标签 其中dt标签中是有html表示的但是是没 阅读全文
posted @ 2021-05-13 21:10 黄某人233 阅读(232) 评论(0) 推荐(0) 编辑
摘要:方法的选择 在论文的爬取中 对于整个的网页内容的一个爬取 这个网页是一个内容比较多的一个网页 所以我选择了selenium中的webdriver库 来进行网页的解析然后进行爬取 def gethtml(url): brower = webdriver.Firefox() brower.get(url 阅读全文
posted @ 2021-05-12 20:51 黄某人233 阅读(178) 评论(0) 推荐(0) 编辑
摘要:ECCV的论文爬取 eccv中的论文都是一个pdf文件 以往过去的数据爬取都是一个网页上的html内容的标签爬取 其中是对于标签的一个划分 但是此次不通 此次的爬取是爬取的pdf文件 其实手动下载也是也可以的 只不过是太多了 论文的数量太多 一个一个点有点废人..... 所以第一部分的爬取信息遇到了 阅读全文
posted @ 2021-05-11 19:46 黄某人233 阅读(71) 评论(0) 推荐(0) 编辑
摘要:目前的任务完成情况如上 我组目前的现任分工任务 基本完成 等下一次冲刺阶段继续分配任务 本次任务的进行还存在很多问题 比如页面内容不全面, 确实个人主页, 第二阶段将会持续跟进。 阅读全文
posted @ 2021-05-10 18:30 黄某人233 阅读(36) 评论(0) 推荐(0) 编辑
摘要:网格布局 其中网格布局的一个实现是由一个css的样式 display: grid;grid-template-columns: repeat(4, 1fr); 使用此功能来对div进行一个划分 .container > div:nth-last-of-type(3) { grid-column: 1 阅读全文
posted @ 2021-05-09 14:28 黄某人233 阅读(43) 评论(0) 推荐(0) 编辑
摘要:网站首页前端制作 在挑选了众多模板之后选择了 一个滑动手风琴的一个样式 其中手风琴的效果是对于一个ul标签的一个css样式制作 其中是一个超链接 然后其中包含一个h1标签和一个p标签 在鼠标移入超链接后整体进行滑动然后展开 显示和h1 和p标签 其中分别用div包裹 3个div 整体一个div包裹 阅读全文
posted @ 2021-05-08 12:41 黄某人233 阅读(65) 评论(0) 推荐(0) 编辑
摘要:KNN算法的实现 在数据集准备完成之后 开始进行算法的实现 其中本次项目分为3个部分 数据的获取 其中数据已经保存到了txt文件 直接读取 print('(1) load texts...')train_texts = open('../dataset_train/x_train.txt', enc 阅读全文
posted @ 2021-05-07 15:24 黄某人233 阅读(80) 评论(0) 推荐(0) 编辑
摘要:数据清洗 二 第一波对数据的清洗其中已经完成了文本的一个清洗 基本上可以满足当前的准确率 然后是对数据文档的合并 和 新闻类别的抽取 其中 文档的合并是 将所有测试集和训练集的各个部分合并 其中在测试集和训练集的划分是手动完成 总共选取了6个类别 每个类别500条新闻 总共3000条 其中合并是让每 阅读全文
posted @ 2021-05-05 15:14 黄某人233 阅读(41) 评论(0) 推荐(0) 编辑
摘要:数据清洗 一 数据已经取出,然后是对数据的一个清洗 其中中文文本的分类 需要分词 还需要进行 停用词的取出 以防对特征值的抽取造成过大影响 分词是为了进行特征抽取的一个词语分割 然后进行提取作用 # encoding=utf-8 #遍历文件,用ProsessofWords处理文件from imp i 阅读全文
posted @ 2021-05-04 10:08 黄某人233 阅读(250) 评论(0) 推荐(0) 编辑
摘要:excel 转换 为单个 txt 在目前的算法分类中首先是尝试 在一些资源网站寻找的文件 很多是excel word 格式 其中excel格式居多 然后对于文档的操作使用txt操作比较方便 所以当前是excel文档中提取每一篇新闻存入txt文件 首先是excel文档的分析 对于此excel文件是一个 阅读全文
posted @ 2021-05-03 22:03 黄某人233 阅读(81) 评论(0) 推荐(0) 编辑
摘要:今天再次确立本项目的各个模块 其中首先是新闻文本的分类 然后是网站的前端结构建立 网站新闻子页的页面自动生成 新闻自动分类 用户登录注册实现 用户个人中心的实现 用户个人喜好的新闻推送(重点) 目前的几个部分根据前后端可以划分成各个部分 前端 各个页面的设计 后端 机器学习算法 爬虫新闻爬取 文档的 阅读全文
posted @ 2021-05-02 12:15 黄某人233 阅读(48) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示