喜欢爬的孩子 - 博客园

2021年11月2日

20211101当天完成的任务

摘要：主要完成的方面是：扩充我们的数据集，最终我们的数据集大约是100万左右。通过改变排序方法进行的数据爬取。阅读全文

posted @ 2021-11-02 22:05 喜欢爬的孩子阅读(40) 评论(0) 推荐(0)

20211102当天完成的任务

摘要：当天主要完成的任务是：下载对应的pdf文档，将原有的1000个扩充将近一万左右阅读全文

posted @ 2021-11-02 22:05 喜欢爬的孩子阅读(26) 评论(0) 推荐(0)

2021年10月31日

20211031当天完成的任务

摘要：主要是学习莫烦关于自然语言处理的相关内容：关于数据的继续爬取阅读全文

posted @ 2021-10-31 21:42 喜欢爬的孩子阅读(24) 评论(0) 推荐(0)

2021年10月30日

20211030当天完成的任务

摘要：对摘要进行简单的处理。熟悉关键字提取、切词、自动摘要、短语提取、自动摘要加关键字提取等相关操作继续下载pdf 阅读全文

posted @ 2021-10-30 22:06 喜欢爬的孩子阅读(25) 评论(0) 推荐(0)

2021年10月29日

20211029当天完成的任务

摘要： pdf的下载作者成员的提取、按作者类别获取数据阅读全文

posted @ 2021-10-29 22:32 喜欢爬的孩子阅读(21) 评论(0) 推荐(0)

2021年10月28日

20211028当天完成的任务

摘要：整理之前按类别获得的数据，之后通过我们获得的数据进行pdf文档的下载：将文档中包含的所有作者抽取出来。阅读全文

posted @ 2021-10-28 19:50 喜欢爬的孩子阅读(21) 评论(0) 推荐(0)

2021年10月27日

20211027当天完成的任务

摘要：主要完成部分：对数据集继续进行扩充：之后进行对应文档的pdf下载操作：代码如下：代码稍微有点问题，明天在进行修改，明天完成pdf下载和之前下载数据中作者名字获取。之后通过作者的名字在下载他们发表的对应文章信息。阅读全文

posted @ 2021-10-27 22:18 喜欢爬的孩子阅读(31) 评论(0) 推荐(0)

2021年10月26日

20211026当天完成的任务

摘要：数据的爬取操作：将我的爬取代码进行了优化。进行分类查询，按多种关键字进行数据的获取。将爬取到的数据存放在excel中。到今天爬取的数据量大约是20万条数据，总共类别的excel如下所示：每个excel中的sheet分类如下所示：完成了课程实践的报告编写，里面用到的主要是pandas和pand 阅读全文

posted @ 2021-10-26 22:36 喜欢爬的孩子阅读(52) 评论(0) 推荐(0)

2021年10月25日

20211025一周的计划

摘要：部分一：通过原有的接口，继续进行数据的爬取操作，让自己使用接口更加熟练，收集的数据集，达到最少五十万以上（最好100万以上）。部分二：通过我获取的文档信息，对支持下载的数据文档进行下载，做到能下载的尽量全部下载下来。部分三：按类型进行文档的爬取例如：人工智能、大数据等等。按作者进行文档的阅读全文

posted @ 2021-10-25 21:37 喜欢爬的孩子阅读(53) 评论(0) 推荐(0)

2021年6月22日

Python人物头像动漫化

摘要：人物头像动漫化：源程序代码（注释已经尽可能详细）：运行结果如下： access_token的数值：原照片：动漫化后的照片：人物头像动漫化（戴口罩）：源程序代码如下（注释已经尽可能详细）：运行结果如下：有问题请留言（点个赞呗！~~~ 里面应用的是百度ai官网申请的数据。人物头像动漫化阅读全文

posted @ 2021-06-22 08:30 喜欢爬的孩子阅读(737) 评论(0) 推荐(0)