03爬虫 爬取hfutxc成绩

复制代码
 1 #-*- coding:utf-8 -*-
 2 # -*- coding: utf-8 -*-
 3 #encoding:utf-8
 4 import urllib
 5 import urllib2
 6 import cookielib
 7 import re
 8 
 9 
10 class SDU:
11 
12     def __init__(self):
13         self.loginUrl = 'http://222.195.8.201/pass.asp'
14         self.gradeUrl = 'http://222.195.8.201/student/asp/Select_Success.asp'
15         self.cookies = cookielib.CookieJar()
16         self.postdata = urllib.urlencode({
17             'UserStyle':'student',
18             'user':'2013217314',
19             'password':'#######'
20          })
21         self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))
22 
23     def getPage(self):
24         request  = urllib2.Request(
25             url = self.loginUrl,
26             data = self.postdata)
27         result = self.opener.open(request)
28         result = self.opener.open(self.gradeUrl)
29         return result.read().decode('gbk')
30         #打印登录内容
31         #print result.read().decode('gbk')
32 
33     def getGrades(self):
34           #获得本学期成绩页面
35           page = self.getPage()
36           #正则匹配
37           myItems = re.findall('<TR bgcolor.*?<TD>.*?</TD>.*?<TD>(.*?)</TD>.*?<TD align="center">.*?</TD>.*?<TD align="center">(.*?)</TD>.*?</TR>',page,re.S)
38           for item in myItems:
39               print item[0]+'  '+item[1].strip()+' '
40               #self.credit.append(item[0].encode('gbk'))
41               #self.grades.append(item[1].encode('gbk'))
42           #self.getGrade()
43 
44 
45 sdu = SDU()
46 sdu.getPage()
47 sdu.getGrades()
复制代码

 

posted @   miao_a_miao  阅读(298)  评论(0编辑  收藏  举报
编辑推荐:
· 后端思维之高并发处理方案
· 理解Rust引用及其生命周期标识(下)
· 从二进制到误差:逐行拆解C语言浮点运算中的4008175468544之谜
· .NET制作智能桌面机器人:结合BotSharp智能体框架开发语音交互
· 软件产品开发中常见的10个问题及处理方法
阅读排行:
· 2025成都.NET开发者Connect圆满结束
· 后端思维之高并发处理方案
· 千万级大表的优化技巧
· 在 VS Code 中,一键安装 MCP Server!
· 10年+ .NET Coder 心语 ── 继承的思维:从思维模式到架构设计的深度解析
历史上的今天:
2015-06-11 hdu 4545 贪心 *
点击右上角即可分享
微信分享提示