2021 年 5月随笔档案 - 黄某人233

前端设计（一）

摘要：前端设计（一）项目选用的是python的flask框架进行设计 flask轻量级框架流程比较简单其中web页面的展示就包括论文的显示 ECCV2018论文信息展示 ICCV2019论文信息展示两年论文信息比对包括四个部分还有一个新闻的主页面阅读全文

posted @ 2021-05-30 23:34 黄某人233 阅读(32) 评论(0) 推荐(0) 编辑

后端流程分析

摘要：后端流程分析整体的后端流程设计如下首先是论文的爬取本系统的主体是论文的一个展示和论文的信息分析其中论文的爬取工作就是一个关键论文的爬取选择的pdf文件爬取 pdf文件爬取之后进行文档格式转换然后对txt文件进行论文文本的操作其中包括论文的字段截取论文的词频统计论文的主要词汇词云图阅读全文

posted @ 2021-05-29 23:31 黄某人233 阅读(57) 评论(0) 推荐(0) 编辑

生成词云图

摘要：生成词云图词云图的生成其中有很多字段在网上有很多的详解关于其中的各个字段然后这写字段中一些对于本项目而言有一些比较重要的字段需要修改其中就包括图片宽高的选取 width=400, # 默认宽度height=400, # 默认高度边缘的控制 margin=0, # 边缘 margin= 阅读全文

posted @ 2021-05-28 23:28 黄某人233 阅读(62) 评论(0) 推荐(0) 编辑

数据导入数据库（二）

摘要：数据导入数据库（二）链接在导入数据库之后还有一个就是标题关键词和摘要的显示这一部分在爬取到pdf文件之后有一个就是将pdf文件转化为txt格式 txt格式之下的文档内容包括全文然后没有图片可以通过对txt文档的一个字符段截取来完成这个工作 def insert(path): with o 阅读全文

posted @ 2021-05-27 23:22 黄某人233 阅读(47) 评论(0) 推荐(0) 编辑

数据导入数据库（一）

摘要：数据导入数据库（一）数据在存入文件之后这是对于数据的清洗得到的是更有价值的信息然而对于文献的阅读还是需要全文的展示所以需要导入数据库首先是原文的链接原文的链接在当初爬取过程中使用过通过原文链接下载pdf文件所以直接在pdf文件下载的时候直接将链接存入数据库 # db = MysqlHe 阅读全文

posted @ 2021-05-26 23:18 黄某人233 阅读(83) 评论(0) 推荐(0) 编辑

数据清洗（四）

摘要：词频统计1.对词汇换行情况进行处理由于在英文论文中常常出现一个单词换行的情况，导致有些词汇分裂，因此，在处理文本之前，对这种情况进行处理。处理的思路是：逐行读取纯文本文件，然后横向合并。借助正则表达式对词汇换行的情况进行处理。def open_file(file_path): with open(f 阅读全文

posted @ 2021-05-25 16:23 黄某人233 阅读(97) 评论(0) 推荐(0) 编辑

数据清洗（三）

摘要：数据清洗（三）由于直接生成的英文纯文本文档格式比较杂乱，比如需要做一些缩写拆解，大小写还原，格式还原等一系列工作，比如 new_text = text# patterns that used to find or/and replace particular chars or words# to 阅读全文

posted @ 2021-05-24 16:21 黄某人233 阅读(45) 评论(0) 推荐(0) 编辑

数据清洗（二）

摘要：数据清洗（二）首先清洗文件的目的是为了统计词频和关键词的抽取然后为了完成这个目的文件的形式以一个文件存储所有的论文文本最为合适省去了对文件的逐个打开操作而且加快了运行效率首先是逐个打开文件 def open_file(file_path): with open(file_path, en 阅读全文

posted @ 2021-05-23 09:30 黄某人233 阅读(57) 评论(0) 推荐(0) 编辑

数据清洗（一）

摘要：数据清洗（一）在完成PDF文件格式转换后，论文PDF文件由一个一个TXT文件保存然后在逐个对论文文件进行清洗工作然后有利于之后的关键词抽取和词云图生成阅读全文

posted @ 2021-05-22 09:25 黄某人233 阅读(73) 评论(0) 推荐(0) 编辑

PDF文件转换为TXT文件

摘要：PDF文件转换为TXT文件 import sysimport importlibfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPag 阅读全文

posted @ 2021-05-21 09:21 黄某人233 阅读(194) 评论(0) 推荐(0) 编辑

Python compile() 函数

摘要：语法以下是 compile() 方法的语法: compile(source, filename, mode[, flags[, dont_inherit]]) 参数 source -- 字符串或者AST（Abstract Syntax Trees）对象。。 filename -- 代码文件名称，如阅读全文

posted @ 2021-05-20 09:11 黄某人233 阅读(104) 评论(0) 推荐(0) 编辑

glob文件操作函数

摘要：glob文件操作函数 glob是python自带的一个操作文件的相关模块，由于模块功能比较少，所以很容易掌握。用它可以查找符合特定规则的文件路径名。使用该模块查找文件，只需要用到： “*”, “?”, “[]”这三个匹配符; ”*”匹配0个或多个字符； ”?”匹配单个字符； ”[]”匹配指定范围内的阅读全文

posted @ 2021-05-19 09:04 黄某人233 阅读(158) 评论(0) 推荐(0) 编辑

Python replace()方法

摘要：Python replace()方法这是一个比较使用的一个字符串替换函数这个用处广泛参考菜鸟教程描述 Python replace() 方法把字符串中的 old（旧字符串）替换成 new(新字符串)，如果指定第三个参数max，则替换不超过 max 次。语法 replace()方法语法：阅读全文

posted @ 2021-05-18 22:12 黄某人233 阅读(295) 评论(0) 推荐(0) 编辑

Python format 格式化函数

摘要：Python format 格式化函数参考菜鸟教程链接如下 https://www.runoob.com/python/att-string-format.html Python2.6 开始，新增了一种格式化字符串的函数 str.format()，它增强了字符串格式化的功能。基本语法是通过 { 阅读全文

posted @ 2021-05-17 21:22 黄某人233 阅读(48) 评论(0) 推荐(0) 编辑

论文爬取 pdf文件爬取（四）

摘要：写入pdf文件现在已经到了最后的部分其中直接将上一部分请求的pdf内容保存到自己的文件路径中就可以了 if not os.path.exists(PDF_path): with open(PDF_path,'wb') as f: print('正在抓取：'+title) f.write(resp 阅读全文

posted @ 2021-05-15 21:52 黄某人233 阅读(62) 评论(0) 推荐(0) 编辑

论文爬取 pdf文件爬取（三）

摘要：pdf文件爬取昨天已经爬取了所有的超链接和标题然后现在开始拼接然后进行下一步的爬取其中已经将全部的超链接和标题保存然后进行遍历就可将全部的文件爬取首先是本地链接的拼接上一步是得到了论文的一个链接链接可以直接请求响应然后获得内容标题是作为爬取下来的pdf文件的内容文件文件名所阅读全文

posted @ 2021-05-14 21:15 黄某人233 阅读(208) 评论(0) 推荐(0) 编辑

论文爬取 pdf文件爬取（二）

摘要：pdf文件爬取首先分析此论文网站的网站结构我选取的是2018年的ECCV论文首先进入后是所有的一个论文总览然后为了实现一个自动爬取需要首先截取到他的一个链接查看后他的一个论文的所有链接都是包含在一个dl中的然后dl中有好多的dd标签和dt标签其中dt标签中是有html表示的但是是没阅读全文

posted @ 2021-05-13 21:10 黄某人233 阅读(232) 评论(0) 推荐(0) 编辑

论文爬取 pdf文件爬取（一）

摘要：方法的选择在论文的爬取中对于整个的网页内容的一个爬取这个网页是一个内容比较多的一个网页所以我选择了selenium中的webdriver库来进行网页的解析然后进行爬取 def gethtml(url): brower = webdriver.Firefox() brower.get(url 阅读全文

posted @ 2021-05-12 20:51 黄某人233 阅读(178) 评论(0) 推荐(0) 编辑

论文爬取思路初定

摘要：ECCV的论文爬取 eccv中的论文都是一个pdf文件以往过去的数据爬取都是一个网页上的html内容的标签爬取其中是对于标签的一个划分但是此次不通此次的爬取是爬取的pdf文件其实手动下载也是也可以的只不过是太多了论文的数量太多一个一个点有点废人..... 所以第一部分的爬取信息遇到了阅读全文

posted @ 2021-05-11 19:46 黄某人233 阅读(71) 评论(0) 推荐(0) 编辑

团队冲刺——燃尽图

摘要：目前的任务完成情况如上我组目前的现任分工任务基本完成等下一次冲刺阶段继续分配任务本次任务的进行还存在很多问题比如页面内容不全面，确实个人主页，第二阶段将会持续跟进。阅读全文

posted @ 2021-05-10 18:30 黄某人233 阅读(36) 评论(0) 推荐(0) 编辑

团队项目冲刺第七天网格布局

摘要：网格布局其中网格布局的一个实现是由一个css的样式 display: grid;grid-template-columns: repeat(4, 1fr); 使用此功能来对div进行一个划分 .container > div:nth-last-of-type(3) { grid-column: 1 阅读全文

posted @ 2021-05-09 14:28 黄某人233 阅读(43) 评论(0) 推荐(0) 编辑

团队项目冲刺第六天网站首页前端制作

摘要：网站首页前端制作在挑选了众多模板之后选择了一个滑动手风琴的一个样式其中手风琴的效果是对于一个ul标签的一个css样式制作其中是一个超链接然后其中包含一个h1标签和一个p标签在鼠标移入超链接后整体进行滑动然后展开显示和h1 和p标签其中分别用div包裹 3个div 整体一个div包裹阅读全文

posted @ 2021-05-08 12:41 黄某人233 阅读(65) 评论(0) 推荐(0) 编辑

团队项目冲刺第五天 KNN算法的实现

摘要：KNN算法的实现在数据集准备完成之后开始进行算法的实现其中本次项目分为3个部分数据的获取其中数据已经保存到了txt文件直接读取 print('(1) load texts...')train_texts = open('../dataset_train/x_train.txt', enc 阅读全文

posted @ 2021-05-07 15:24 黄某人233 阅读(80) 评论(0) 推荐(0) 编辑

团队项目冲刺第四天数据清洗二

摘要：数据清洗二第一波对数据的清洗其中已经完成了文本的一个清洗基本上可以满足当前的准确率然后是对数据文档的合并和新闻类别的抽取其中文档的合并是将所有测试集和训练集的各个部分合并其中在测试集和训练集的划分是手动完成总共选取了6个类别每个类别500条新闻总共3000条其中合并是让每阅读全文

posted @ 2021-05-05 15:14 黄某人233 阅读(41) 评论(0) 推荐(0) 编辑

团队项目冲刺第三天数据清洗一

摘要：数据清洗一数据已经取出，然后是对数据的一个清洗其中中文文本的分类需要分词还需要进行停用词的取出以防对特征值的抽取造成过大影响分词是为了进行特征抽取的一个词语分割然后进行提取作用 # encoding=utf-8 #遍历文件，用ProsessofWords处理文件from imp i 阅读全文

posted @ 2021-05-04 10:08 黄某人233 阅读(250) 评论(0) 推荐(0) 编辑

团队项目冲刺第二天机器学习算法的实现中文档的转换

摘要：excel 转换为单个 txt 在目前的算法分类中首先是尝试在一些资源网站寻找的文件很多是excel word 格式其中excel格式居多然后对于文档的操作使用txt操作比较方便所以当前是excel文档中提取每一篇新闻存入txt文件首先是excel文档的分析对于此excel文件是一个阅读全文

posted @ 2021-05-03 22:03 黄某人233 阅读(81) 评论(0) 推荐(0) 编辑

团队项目冲刺第一天项目划分

摘要：今天再次确立本项目的各个模块其中首先是新闻文本的分类然后是网站的前端结构建立网站新闻子页的页面自动生成新闻自动分类用户登录注册实现用户个人中心的实现用户个人喜好的新闻推送（重点）目前的几个部分根据前后端可以划分成各个部分前端各个页面的设计后端机器学习算法爬虫新闻爬取文档的阅读全文

posted @ 2021-05-02 12:15 黄某人233 阅读(48) 评论(0) 推荐(0) 编辑

05 2021 档案

公告

搜索

常用链接

随笔档案

阅读排行榜

推荐排行榜