2017 年 6月 21 日随笔档案 - AlamZ

2017年6月21日

摘要：经过多次尝试，模拟登录淘宝终于成功了，实在是不容易，淘宝的登录加密和验证太复杂了，煞费苦心，在此写出来和大家一起分享，希望大家支持。本篇内容探索部分成果整体思路梳理是不是没看懂？没事，下面我将一点点说明自己模拟登录的过程，希望大家可以理解。前期准备由于淘宝的 ua 算法和 aes 密码加阅读全文

posted @ 2017-06-21 16:41 AlamZ 阅读(1516) 评论(0) 推荐(0) 编辑

Python 爬虫实战3 计算大学本学期绩点

摘要：大家好，本次为大家带来的项目是计算大学本学期绩点。首先说明的是，博主来自山东大学，有属于个人的学生成绩管理系统，需要学号密码才可以登录，不过可能广大读者没有这个学号密码，不能实际进行操作，所以最主要的还是获取它的原理。最主要的是了解cookie的相关操作。本篇目标 1.URL的获取恩，博主来自山阅读全文

posted @ 2017-06-21 16:36 AlamZ 阅读(705) 评论(0) 推荐(0) 编辑

Python 爬虫实战2 百度贴吧帖子

摘要：爬取百度贴吧的帖子。与上一篇不同的是，这次我们需要用到文件的相关操作。本篇目标 1.URL格式的确定首先，我们先观察一下百度贴吧的任意一个帖子。比如：http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，这是一个关于NBA50大的盘点，分析一下这个阅读全文

posted @ 2017-06-21 16:27 AlamZ 阅读(446) 评论(0) 推荐(0) 编辑

python 爬虫实战4 爬取淘宝MM照片

摘要：本篇目标 1.URL的格式在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1，问号前面是基地址，后面的参数page是代表第几页，可以随意更换地址。点击开之后，会发现有一些淘宝MM的简介，并附有超链接链接到个人详情页面阅读全文

posted @ 2017-06-21 16:08 AlamZ 阅读(441) 评论(0) 推荐(0) 编辑

python 爬虫实战1 爬取糗事百科段子

摘要：首先，糗事百科大家都听说过吧？糗友们发的搞笑的段子一抓一大把，这次我们尝试一下用爬虫把他们抓取下来。本篇目标糗事百科是不需要登录的，所以也没必要用到Cookie，另外糗事百科有的段子是附图的，我们把图抓下来图片不便于显示，那么我们就尝试过滤掉有图的段子吧。好，现在我们尝试抓取一下糗事百科的热门阅读全文

posted @ 2017-06-21 15:49 AlamZ 阅读(228) 评论(0) 推荐(0) 编辑

python 爬虫5 Beautiful Soup的用法

摘要： 1.创建 Beautiful Soup 对象 2.四大对象种类 Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment 2.1 tag 2.2 阅读全文

posted @ 2017-06-21 15:20 AlamZ 阅读(225) 评论(0) 推荐(0) 编辑

python 爬虫4 cookies

摘要： Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。在此之前呢阅读全文

posted @ 2017-06-21 14:14 AlamZ 阅读(217) 评论(0) 推荐(0) 编辑

python 爬虫3 异常处理

摘要： 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚 import urllib2 requset = urllib2.R 阅读全文

posted @ 2017-06-21 13:59 AlamZ 阅读(1483) 评论(0) 推荐(0) 编辑

python 爬虫2 Urllib库的高级用法

摘要： 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。另外，我们还有对付”反盗链”的方式，对付防盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的阅读全文

posted @ 2017-06-21 13:51 AlamZ 阅读(314) 评论(0) 推荐(0) 编辑

python 爬虫1 Urllib库的基本使用

摘要： 1.简单使用 2.运行结果是完全一样的，只不过中间多了一个request对象，推荐大家这么写，因为在构建请求时还需要加入好多内容，通过构建一个request，服务器响应请求得到应答，这样显得逻辑上清晰明确。 3.POST方式 4.GET方式阅读全文

posted @ 2017-06-21 13:46 AlamZ 阅读(174) 评论(0) 推荐(0) 编辑

AlamZ

公告