随笔分类 -  爬虫

摘要:# 1.爬取首页数据,解析获取视频的详情链接 # 2.遍历每一个详情链接,并访问 # 3.从详情页面解析得到需要的数据 (视频链接,标题,详情,时间,收藏次数) # 1.爬取首页数据,解析获取视频的详情链接# 2.遍历每一个详情链接,并访问# 3.从详情页面解析得到需要的数据 (视频链接,标题,详情 阅读全文
posted @ 2019-03-06 22:01 薛才昌 阅读(314) 评论(0) 推荐(0) 编辑
摘要:引入 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu的利用率仍 阅读全文
posted @ 2019-01-25 17:14 薛才昌 阅读(207) 评论(0) 推荐(0) 编辑
摘要:一、Beautiful Soup 简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Sou 阅读全文
posted @ 2019-01-23 20:18 薛才昌 阅读(164) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示