自动化提取51啦数据的信息

#!/usr/bin/python
#coding:gbk
#这个是一个自动化提取51啦数据的信息
#Lm_team 处世制作

import httplib #这个没用到
import urllib
import cookielib
import urllib2
import re
import base64 #这个也是没用到
import os
import datetime #这个时间

#设置cookie
cj = cookielib.LWPCookieJar()
cookie_support = urllib2.HTTPCookieProcessor (cj)
openner = urllib2.build_opener (cookie_support,urllib2.HTTPHandler)
urllib2.install_opener(openner)

#进行提交数据
url = 'http://www.51.la/login.asp?' #需要打开的网页
post_data = ({'uname':'abbbc这个是账户','upass':'这个是密码'}) #设置post数值
post_data = urllib.urlencode (post_data) #进行Post数据编码
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:22.0) Gecko/20100101 Firefox/22.0'} #设置头部信息
req = urllib2.Request (url,post_data,headers) #提交数据
result = urllib2.urlopen(req) #打开页面
text = result.read() #读取页面数据

#正则进行提取页面数据
#提取昨日流量中的所有数据
res = r'昨日流量(<\W\w{2}>\s*<\w{2}>\d{1,4}\s\D{2}<\W\w{2}>\s*<\w{2}>\d{1,4}\s\D{2}<\W\w{2}>\s*<\w{2}>\d{1,4}\s\D{2}<\W\w{2}>\s*<\w{2}>\d{1,4}\s\D{2}<\W\w*>\s*<\w{2}>\d.\d{2})' #很纳闷为何不能采用(){}这种重复格式。
resIP = r'\d{1,4}\s\IP' #ip的正则
resPV = r'\d{1,4}\s\PV' #pv的正则
resPJ = r'\d{1,2}[.]\d{1,2}' #平均值的正则

#判断昨天日期
now = datetime.datetime.now()
date = now.strftime('%Y')+'-'+now.strftime('%m')+'-'+str(int(now.strftime('%d'))-1) #昨天日期

def ref_post():
print "#"*50
find_data = re.findall(res,rtext) #提取过后的数据
rdata = find_data[0].decode('gbk') #设置输出数据的格式,否则出现16进制情况\xec
#print rdata
#显示Ip Pv 平均值
global find_dataIP,find_dataPV,find_dataPJ
find_dataIP = re.findall(resIP,rdata) #提取过滤后的IP数据
find_dataPV = re.findall(resPV,rdata) #提取过滤后的Pv值
find_dataPJ = re.findall(resPJ,rdata) #提取过滤后的平均值

def pr_post():
print find_dataIP[0]
print find_dataPV[0]
print find_dataPJ[0]

#打开保存的数据
mDicFile = open('F:\pylib\id.txt') #网站配对ID值
lines = mDicFile.readlines() #提取每一行
#以下循环每一行进行打开页面操作
for li in lines:
# rurl = "http://www.51.la/report/1_main.asp?id="+li+'&d1='+date

rurl = "http://www.51.la/report/1_main.asp?id="+li
rreq = urllib2.Request(rurl,post_data,headers)
rresult = urllib2.urlopen(rreq)
rtext = rresult.read()
ref_post()
pr_post()

 

#未完待续,没球门,日。太他妈纠结了 新手上路 亮熊出没请注意戴眼镜

#抓包过程中,发现一个极其极其ok的事情。51啦的验证登陆。cookie里边的数据,大家可以自己抓包看下。嘿嘿。xss简直就是直接暴菊 太甚

 

#后期补充会出现填写时间,自动提取隔天某数据。或者隔天某段数据。

同时添加提取后的数据,填写exec表格中。

LM_team 制作

posted @ 2013-09-17 19:41  突变  阅读(275)  评论(0编辑  收藏  举报