随笔分类 - python爬虫
使用python3进行爬虫的实践记录
摘要:最近有人反映淘宝的搜索功能要登录才能用,原先的直接爬取的方法挂了。稍微把之前的代码修改了一下,登录采用最简单的复制cookie来解决。 顺便说一下,这只是根据搜索的的索引界面获取的信息,并未深入的获取每个具体商品的信息。为了以后有拓展空间,便于爬取详细的商品信息,我顺便把详情页的URL拿下来了。 淘
阅读全文
摘要:这次将从电影天堂获取最新的电影的详细信息,这里电影的信息罗列的比较详细。 本来只是想获取电影的迅雷链接,然后用迅雷去下载。但看到这里的电影的信息比较完整和详细,忍不住把所有信息都爬取下来了。 下图是《猩球崛起3》 的简介,可以看到信息还是很多的。 主要代码如下: 获取的结果的如下:
阅读全文
摘要:这次的主要的目的是从淘宝的搜索页面获取商品的信息。其实分析页面找到信息很容易,页面信息的存放都是以静态的方式直接嵌套的页面上的,很容易找到。主要困难是将信息从HTML源码中剥离出来,数据和网页源码结合的很紧密,剥离数据有一定的难度。 然后将获取的信息写入excel表格保存起来,这次只爬取了前面10页
阅读全文
摘要:上次只是爬取一个专辑的图片,这次要爬取一整个页面的所有专辑的图片。 在上次的代码的基础上进行修改就行了,从专辑的索引页面开始,爬取该页面上所有的专辑的链接,再套用上次的代码就行了。 若要爬取多个页面只需在外围套上一个循环就可以了。 代码如下:
阅读全文
摘要:这次爬取的目标是:美桌网首页 > 桌面壁纸 > 卡通动漫 类别下的壁纸. 我们先随机选取一个专辑来爬( http://www.win4000.com/wallpaper_detail_54520.html ). 后面再把整个卡通动漫类别的所有专辑的壁纸爬下来。 代码如下: 注:如果是Windows下
阅读全文
摘要:一、Requests模块:用于发送网络请求 使用requests方法后,会返回一个response对象,其存储了服务器响应的内容: 1.传递参数: Requests允许你使用params关键字参数,以一个字符串字典来提供参数以手工构建URL 2.定制请求头: 如果你想为请求添加HTTP头部,只要简单
阅读全文
摘要:正则表达式是一种匹配模式,使用的好的话能省去很多的麻烦,而且匹配的精度要比BeautifulSoup高很多。 下面这张图列出了使用正则表达式的一些应该注意的基础问题。
阅读全文
摘要:一、将一段文档传入BeautifulSoup的构造方法,得到一个文档的对象: 二、Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comme
阅读全文
摘要:爬取电影票房数据,用于统计建模分析。目标网站为电影票房数据库(http://58921.com/alltime). 基本的爬取静态网站的技术,模拟登陆使用的是最简单的cookies。(这种模拟登陆的方式虽然简单但有很大的局限性,时效性比较短,也许两三天后就失效了,或者网页改版一点也会导致失效。最好的
阅读全文