爬网页哦

复制代码
 1 # -*- coding: UTF-8-*- 
 2 import urllib2,re
 3 
 4 mylist = []
 5 
 6 p = re.compile( r"<a.+?href=.+?>.+?</a>")
 7 pname = re.compile( r"(?<=>).*?(?=</a>)" )
 8 phref = re.compile( r"(?<=href\=\")http.*?(?=\")")
 9 
10 html_c = urllib2.urlopen("http://www.baidu.com/?vit=1").read()
11 
12 def geturltest(str):
13     html_c = urllib2.urlopen(str).read()
14     arr = p.findall(html_c)
15     for ever in arr:
16         con = phref.findall(ever)
17         if len(con) > 0:
18             print con[0]
19         
20 def geturl(str):
21     html_c = urllib2.urlopen(str).read()
22     arr = p.findall(html_c)
23     for ever in arr:
24         con = phref.findall(ever)
25         if len(con) == 0:
26             continue
27         else:
28             print con[0]
29             if mylist.__contains__(con[0]) == False:
30                 mylist.append(con[0])
31                 geturl(con[0])
32             else:
33                 pass
34 def main():
35     geturl("http://www.baidu.com/?vit=1")
36 
37 if __name__ == '__main__': main()
复制代码

 

posted @   邵贤军  阅读(512)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· SQL Server 2025 AI相关能力初探
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
点击右上角即可分享
微信分享提示