随笔分类 - 爬虫

爬虫之爬取梨视频

摘要：# 1.爬取首页数据,解析获取视频的详情链接 # 2.遍历每一个详情链接,并访问 # 3.从详情页面解析得到需要的数据 (视频链接,标题,详情,时间,收藏次数) # 1.爬取首页数据,解析获取视频的详情链接# 2.遍历每一个详情链接,并访问# 3.从详情页面解析得到需要的数据 (视频链接,标题,详情阅读全文

posted @ 2019-03-06 22:01 薛才昌阅读(314) 评论(0) 推荐(0) 编辑

爬虫性能优化

摘要：引入爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程对cpu的利用率仍阅读全文

posted @ 2019-01-25 17:14 薛才昌阅读(207) 评论(0) 推荐(0) 编辑

Beautiful Soup模块

摘要：一、Beautiful Soup 简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Sou 阅读全文

posted @ 2019-01-23 20:18 薛才昌阅读(164) 评论(0) 推荐(0) 编辑

公告

昵称：薛才昌
园龄： 6年7个月
粉丝： 12
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

薛才昌

记录我的成长吧！

随笔分类 - 爬虫

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论