11 2018 档案
摘要:今天爬取的百度的实时热点排行榜 按照惯例,先下载网站的内容到本地: 因为我习惯把网页整个抓到本地再来分析数据,所以会有这一步,后面会贴直接抓取并分析的代码。 开始分析数据: 我想抓取的排名,关键词和搜索指数这三个值。 打开网页源代码: 发现每个标题的各个元素是一个个td被包装在一个tr标签里面,每一
阅读全文
摘要:从今天开始我会把我学习python爬虫的一些心得体会和代码发布在我现在的博客,好记性不如烂笔头,以便以后的我进行复习。 虽然我现在的爬虫还很幼小,希望有一天她能长得非常非常的强大。 2018.11.22 OK,废话少说。今天爬取的是电影天堂网站左边框的一个container。 环境我准备好了,所以我
阅读全文