随笔分类 -  我的爬虫之路

这里会记录我学习爬虫过程中一些心得,经验。
摘要:本次目标时用正则表达式抓取一个网站的歌曲排行榜 部分源代码如下: 可以看到,每一个<li>标签里存着一首歌的信息,包括,排名,地址,歌名。 按道理来说,写个正则匹配直接findall全出来了,但这个网站设了几点难点给我。 第一: 第一、二、三名的歌曲在songNum后面加了 topRed,还有在第一 阅读全文
posted @ 2019-03-14 13:07 漫游者杰特 阅读(434) 评论(0) 推荐(0) 编辑
摘要:今天爬取的百度的实时热点排行榜 按照惯例,先下载网站的内容到本地: 因为我习惯把网页整个抓到本地再来分析数据,所以会有这一步,后面会贴直接抓取并分析的代码。 开始分析数据: 我想抓取的排名,关键词和搜索指数这三个值。 打开网页源代码: 发现每个标题的各个元素是一个个td被包装在一个tr标签里面,每一 阅读全文
posted @ 2018-11-23 17:36 漫游者杰特 阅读(3561) 评论(0) 推荐(0) 编辑
摘要:从今天开始我会把我学习python爬虫的一些心得体会和代码发布在我现在的博客,好记性不如烂笔头,以便以后的我进行复习。 虽然我现在的爬虫还很幼小,希望有一天她能长得非常非常的强大。 2018.11.22 OK,废话少说。今天爬取的是电影天堂网站左边框的一个container。 环境我准备好了,所以我 阅读全文
posted @ 2018-11-22 16:06 漫游者杰特 阅读(844) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示