05 2021 档案

摘要:暂时没想到这个能用来干什么,只是刚好看到相关文章,学习一下,就拿获取基金信息来做试验把 爬取基金的信息就不介绍了,请参考https://www.cnblogs.com/becks/p/14500495.html 这里主要是对输出内容修改了,改成不写入表格,实时打印出来 正文,通过调用别人已经架设好的 阅读全文
posted @ 2021-05-30 20:43 小贝书屋 阅读(1726) 评论(0) 推荐(0) 编辑
摘要:前面分析统计了金庸名著《倚天屠龙记》中人物按照出现次数并排序 https://www.cnblogs.com/becks/p/11421214.html 然后使用pyecharts,统计B站某视频弹幕内容,并绘制成词云显示 https://www.cnblogs.com/becks/p/147430 阅读全文
posted @ 2021-05-18 23:28 小贝书屋 阅读(1003) 评论(0) 推荐(0) 编辑
摘要:我们使用beatifulsop爬取到B站视频的字幕:https://www.cnblogs.com/becks/p/14540355.html 然后将爬取的字幕,使用pandas处理后写到CSV文件中:https://www.cnblogs.com/becks/p/14738496.html 本篇, 阅读全文
posted @ 2021-05-07 22:58 小贝书屋 阅读(1263) 评论(0) 推荐(0) 编辑
摘要:上文,我们爬取到B站视频的字幕:https://www.cnblogs.com/becks/p/14540355.html 这篇,讲讲怎么把爬到的字幕写到CSV文件中,以便用于后面的分析 本文主要用到“pandas”这个库对数据进行处理 import pandas as pd 首先需要对爬取到的内容 阅读全文
posted @ 2021-05-07 11:32 小贝书屋 阅读(1682) 评论(0) 推荐(0) 编辑
摘要:前面的案例里,均采用正则匹配的方式取值 title = re.findall('">(.*?)</a>', i, re.S)[0]#标题 url = re.findall('="(.*?)" target', i, re.S)[0]#地址 这么写的容错能力有限,爬取的数据越多,越容易出现匹配不到内容 阅读全文
posted @ 2021-05-06 14:48 小贝书屋 阅读(6051) 评论(0) 推荐(0) 编辑