随笔分类 - 我的爬虫之路

这里会记录我学习爬虫过程中一些心得，经验。

摘要：本次目标时用正则表达式抓取一个网站的歌曲排行榜部分源代码如下：可以看到，每一个<li>标签里存着一首歌的信息，包括，排名，地址，歌名。按道理来说，写个正则匹配直接findall全出来了，但这个网站设了几点难点给我。第一：第一、二、三名的歌曲在songNum后面加了 topRed，还有在第一阅读全文

posted @ 2019-03-14 13:07 漫游者杰特阅读(434) 评论(0) 推荐(0) 编辑

Python爬取百度实时热点排行榜

摘要：今天爬取的百度的实时热点排行榜按照惯例，先下载网站的内容到本地：因为我习惯把网页整个抓到本地再来分析数据，所以会有这一步，后面会贴直接抓取并分析的代码。开始分析数据：我想抓取的排名，关键词和搜索指数这三个值。打开网页源代码：发现每个标题的各个元素是一个个td被包装在一个tr标签里面，每一阅读全文

posted @ 2018-11-23 17:36 漫游者杰特阅读(3562) 评论(0) 推荐(0) 编辑

Python爬取电影天堂最新发布影片消息

摘要：从今天开始我会把我学习python爬虫的一些心得体会和代码发布在我现在的博客，好记性不如烂笔头，以便以后的我进行复习。虽然我现在的爬虫还很幼小，希望有一天她能长得非常非常的强大。 2018.11.22 OK，废话少说。今天爬取的是电影天堂网站左边框的一个container。环境我准备好了，所以我阅读全文

posted @ 2018-11-22 16:06 漫游者杰特阅读(844) 评论(0) 推荐(0) 编辑