随笔分类 - 爬虫
摘要:# 1.爬取首页数据,解析获取视频的详情链接 # 2.遍历每一个详情链接,并访问 # 3.从详情页面解析得到需要的数据 (视频链接,标题,详情,时间,收藏次数) # 1.爬取首页数据,解析获取视频的详情链接# 2.遍历每一个详情链接,并访问# 3.从详情页面解析得到需要的数据 (视频链接,标题,详情
阅读全文
摘要:引入 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu的利用率仍
阅读全文
摘要:一、Beautiful Soup 简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Sou
阅读全文