上一页 1 2 3 4 5 6 ··· 38 下一页
摘要: 主要完成的方面是: 扩充我们的数据集,最终我们的数据集大约是100万左右。 通过改变排序方法进行的数据爬取。 阅读全文
posted @ 2021-11-02 22:05 喜欢爬的孩子 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 当天主要完成的任务是: 下载对应的pdf文档,将原有的1000个扩充将近一万左右 阅读全文
posted @ 2021-11-02 22:05 喜欢爬的孩子 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 主要是学习莫烦关于自然语言处理的相关内容: 关于数据的继续爬取 阅读全文
posted @ 2021-10-31 21:42 喜欢爬的孩子 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 对摘要进行简单的处理。熟悉关键字提取、切词、自动摘要、短语提取、自动摘要加关键字提取等相关操作 继续下载pdf 阅读全文
posted @ 2021-10-30 22:06 喜欢爬的孩子 阅读(19) 评论(0) 推荐(0) 编辑
摘要: pdf的下载 作者成员的提取、 按作者类别获取数据 阅读全文
posted @ 2021-10-29 22:32 喜欢爬的孩子 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 整理之前按类别获得的数据,之后通过我们获得的数据进行pdf文档的下载: 将文档中包含的所有作者抽取出来。 阅读全文
posted @ 2021-10-28 19:50 喜欢爬的孩子 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 主要完成部分: 对数据集继续进行扩充: 之后进行对应文档的pdf下载操作: 代码如下: 代码稍微有点问题,明天在进行修改,明天完成pdf下载和之前下载数据中作者名字获取。之后通过作者的名字在下载他们发表的对应文章信息。 阅读全文
posted @ 2021-10-27 22:18 喜欢爬的孩子 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 数据的爬取操作: 将我的爬取代码进行了优化。进行分类查询,按多种关键字进行数据的获取。将爬取到的数据存放在excel中。到今天爬取的数据量大约是20万条数据, 总共类别的excel如下所示: 每个excel中的sheet分类如下所示: 完成了课程实践的报告编写,里面用到的主要是pandas和pand 阅读全文
posted @ 2021-10-26 22:36 喜欢爬的孩子 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 部分一: 通过原有的接口,继续进行数据的爬取操作,让自己使用接口更加熟练,收集的数据集,达到最少五十万以上(最好100万以上)。 部分二: 通过我获取的文档信息,对支持下载的数据文档进行下载,做到能下载的尽量全部下载下来。 部分三: 按类型进行文档的爬取例如:人工智能、大数据等等。 按作者进行文档的 阅读全文
posted @ 2021-10-25 21:37 喜欢爬的孩子 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 人物头像动漫化: 源程序代码(注释已经尽可能详细): 运行结果如下: access_token的数值: 原照片: 动漫化后的照片: 人物头像动漫化(戴口罩): 源程序代码如下(注释已经尽可能详细): 运行结果如下: 有问题请留言(点个赞呗!~~~ 里面应用的是百度ai官网申请的数据。 人物头像动漫化 阅读全文
posted @ 2021-06-22 08:30 喜欢爬的孩子 阅读(646) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 38 下一页