beautifulsoup的使用

靓汤很好用,代码直接减少一半

 

 1 urls = []
 2 queue = Queue.Queue()
 3 
 4 def geturl(url):
 5     
 6     html = urllib2.urlopen(url).read()
 7     soup = BeautifulSoup(html)
 8     tag_a = soup.findAll('a', href=True)
 9     for i in tag_a:
10         s = i['href']
11         if s.startswith('#'):
12             pass
13         elif s.startswith('/'):
14             s = url + s
15             if s not in urls:
16                 urls.append(s)
17                 queue.put(s)   
18         else:
19             if s not in urls:
20                 urls.append(s)
21                 queue.put(s)   
22     return urls, queue

 

多线程看完了,也了解一部分,不是很难,可是发现一个问题就是 我不知道该怎么把单线程变成多线程。调了好久。老是不在点上。着急呀

有大牛看到我的这个问题的话,请指点!!!

posted on 2012-07-26 16:33  h3idan  阅读(324)  评论(0编辑  收藏  举报

导航