2 模拟登录_Post表单方式（针对chinaunix有效，针对csdn失效，并说明原因）

参考精通Python网络爬虫实战

首先，针对chinaunix

import urllib.request
#原书作者提供的测试url
url="http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LctlC"
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5193.400 QQBrowser/10.0.1066.400")
postdata=urllib.parse.urlencode({
    "username":"xiaojieshisilang",
    "password":"XXXXX"
}).encode('utf-8')
req=urllib.request.Request(url,postdata)
req.add_header(headers[0],headers[1])
data=urllib.request.urlopen(req).read()
#print (data)
fhandle=open("./8.html","wb")
fhandle.write(data)
fhandle.close()

#设置要爬去的该网站下其他网页的网址
url2="http://bbs.chinaunix.net/forum.php?mod=guide&view=my"#这是从网页登录以后，才能进入的个人空间。
req2=urllib.request.Request(url2,postdata)
req2.add_header(headers[0],headers[1])
data2=urllib.request.urlopen(req2).read()
#print (data2)
fhandle=open("./8_2.html","wb")
fhandle.write(data2)
fhandle.close()

　上面的password需要你自己去注册。

关键点在于获取用于针对post用户名和密码信息之后的那个URL，以及构建PostData表单字典。

第一，如何获取URL呢？

F12打开调试界面。

输入错误的用户名add和密码add，可以看到URL信息如下：

以及FormData信息如下：

同时，我们就能构造出

postdata=urllib.parse.urlencode({
    "username":"xiaojieshisilang",
    "password":"XXXXXXXXXXX"
}).encode('utf-8')

　　这里要填入正确的用户名和密码。

最后代码的运行结果是：打开8_html

同时，8-2.html则是：

关于构建postData时的名称，除了用F12调试的方式。

另外一种是，直接放在文本框，用右键检查的方式，从而定位到相应的源码，取出表单的名称，比如：username和password。

下面针对CSDN进行类似操作

输入错误的用户名和密码

这个时候，查看Form Data，即表单数据。

import urllib.request
url="https://passport.csdn.net/account/verify"
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5193.400 QQBrowser/10.0.1066.400")
postdata=urllib.parse.urlencode({
    "username":"183247166@qq.com",
    "password":"XXXXXX"
}).encode('utf-8')
req=urllib.request.Request(url,postdata)
req.add_header(headers[0],headers[1])
data=urllib.request.urlopen(req).read()
#print (data)
fhandle=open("./8.html","wb")
fhandle.write(data)
fhandle.close()

#设置要爬去的该网站下其他网页的网址
url2="https://download.csdn.net/my"#这是从网页登录以后，才能进入的个人空间。
req2=urllib.request.Request(url2,postdata)
req2.add_header(headers[0],headers[1])
data2=urllib.request.urlopen(req2).read()
#print (data2)
fhandle=open("./8_2.html","wb")
fhandle.write(data2)
fhandle.close()

结果是：

不能正确登录csdn，并且爬虫。

这说明，csdn的验证机制，不是简单的一个post就能完成的。

失败原因分析

https://blog.csdn.net/yanggd1987/article/details/52127436

这个链接是前人的博客。大家同时可以参考Python3网络爬虫开发实战一书中的观点，要先获取隐藏表单中的值，然后再构造post数据，用python模拟登录。

但是，最新版本，截止到当前时间2018年7月13日09:54:03时，csdn的验证机制变了。具体如下：

用F12进行调试时，追踪post请求数据，可以看到，相比于以前各个博文中的多了一个fkid值。

之前的：

values = {

        "username":"用户名",

        "password":"密码",

        "lt":lt,

        "execution":execution,

        "_eventId":"submit"
}

　　现在的：

尝试抓取隐藏表单数据。我们F12调试的时候，选择Preseve log选项，选择chrome浏览器。

刷新csdn的登录界面，可以看到开发者模式记录的第一个请求实Get请求，访问的是https://passport.csdn.net/account/login，类似于github的机制，这个时候，访问这个页面，会忘隐藏表单中填入相关的数据。具体请求的信息如下：

服务器会Response一些set_cookie的信息，要求浏览器客户端设置cookie文件。

这些暂时不用考虑。

我们点击“扫码登录”，然后鼠标放在密码的文本框上，右键选择检查，可以看到：

FORM中隐藏表单中的lt，execution等都已经填入了相关值。你可以进一步做实验，每次刷新login页面，这些值都会变化。我们发现fkid这个新属性（csdn最新添加的属性）并没有值。仍是value。我们参考Python3网络爬虫开发实战中的方法编写如下代码取出隐藏表单的值：

这里面用到XPATH。

如何知道XPATH，直接在F12模式的表单input位置，右键选择copy XPATH即可。

import urllib.request
import requests
from lxml import etree
#获取加载的it/execution/fkid等的值
headers = {
            'Referer': 'https://www.csdn.net/',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5193.400 QQBrowser/10.0.1066.400',
            'Host': 'passport.csdn.net'
        }
login_url="https://passport.csdn.net/account/login"
session = requests.Session()
response = session.get(login_url, headers=headers)
selector=etree.HTML(response.text)
execution=selector.xpath('//input[@name="execution"]/@value')[0]
print (execution)
_eventId=selector.xpath('//input[@name="_eventId"]/@value')[0]
print (_eventId)
lt=selector.xpath('//input[@name="lt"]/@value')[0]
print (lt)
fkid=selector.xpath('//*[@id="fkid"]/@value')[0]
print (fkid)