上一页 1 2 3 4 5 6 7 ··· 23 下一页
摘要: 今天完成了第二层链接爬取的设计,在爬取时发现了一个问题,爬取全部的链接,足足有几百万条可能更多,而使用谷歌驱动的缺点就是,爬取速度特别慢,如果网速差的话更慢,再加上防止知网访问频繁的验证码问题,必需加上休眠,如果要爬取所有链接,运行22天不断才能爬取完成,这还只是链接,所以准备修改代码,每一个专辑只 阅读全文
posted @ 2020-09-29 18:24 集 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 根据上周的爬取经验,发现bs4,request等直接访问请求头的方法,很难能够爬取知网,不是找不到内容在哪里,就是访问出错,不知道是访问时携带数据的问题,还是被发现是代码访问,被拦截。 所以改变思路使用谷歌驱动器进行爬取,今天完成了第一次专辑链接的爬取。 阅读全文
posted @ 2020-09-28 14:20 集 阅读(67) 评论(0) 推荐(0) 编辑
摘要: 本周计划完成知网爬虫,并初步搭建界面设计(学习使用SSH架构)。 阅读全文
posted @ 2020-09-28 14:17 集 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 今天依旧进行大作业数据的爬取,知网好像修改了结构,寻找数据所在的请求中。。。。 阅读全文
posted @ 2020-09-27 10:05 集 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 今天完成了数据的抽取,并模仿案例2做了问答机器人的设计,该开始大作业的数据爬取了。 阅读全文
posted @ 2020-09-25 21:53 集 阅读(66) 评论(0) 推荐(0) 编辑
摘要: 今天在寻找算法的关系抽取时,发现时间已经不多了,也许我改换个思路,发现民航的数据,规律性很强,也许我该使用规则的方法进行实体关系的抽取。使用规则的方法抽取中。 阅读全文
posted @ 2020-09-24 20:02 集 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 今天做实验时,发现老师给了实体提取代码和关系抽取代码,实体提取为LSTM,但是需要大量的实体标注,一个耗时耗力的工作,但是我的时间已经不多了,关系抽取,用的是hanlp的关系抽取,对于民航多数字这样的数据,抽取效果有点差,尝试寻找算法的关系抽取。 阅读全文
posted @ 2020-09-23 20:48 集 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 今天运行了一个英文实体提取算法,但是只能提取英文的内容,中文的实体提取项目,需要下载词向量,下载了好一会,最后也是没有运行出来。 阅读全文
posted @ 2020-09-22 19:55 集 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 今天浏览了大作业数据,准备以不同地区,不同时间为实体,属性包括周转量等等,关系为增加,增长。 并在GitHub下载了一下实体提取算法,尝试运行中。 阅读全文
posted @ 2020-09-21 18:51 集 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 本周计划,完成爬取知网数据任务,完成老师实验及大作业任务。 阅读全文
posted @ 2020-09-21 18:18 集 阅读(91) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 23 下一页