python爬虫豆瓣网
import requests from bs4 import BeautifulSoup url = 'http://www.douban.com' wb_data = requests.get(url) soup = BeautifulSoup(wb_data.text,'lxml') titles = soup.select('#anony-events > div > div.main > div > ul > li > div.info > div.title > a') times = soup.select('#anony-events > div > div.main > div > ul > li > div.info > div.datetime') didian = soup.select('#anony-events > div > div.main > div > ul > li > div.info > address') scores = soup.select('#anony-events > div > div.main > div > ul > li > div.info > div.follow') for title,time,di,score in zip(titles,times,didian,scores): data = { 'title':title.get_text(), 'time':time.get_text(), 'di':di.get_text(), 'score':score.get_text() } for key,value in data.items(): print(key,':',value) print('------------------------------')
简单爬取豆瓣网同城活动内容,爬取结果:
di :
金阳东街18号万科都荟体验...
title :
万科携手设计地图100 献上原创“家剧”大片
time :
5月29日 周日 - 6月12日 周日
score :
23人关注
------------------------------
di :
云南路50号和光陶社
title :
色诱——小草釉画展
time :
5月23日 周一 - 6月6日 周一
score :
52人关注
------------------------------
di :
长江路101号 南京文化艺术中心
title :
蓝色多瑙河四手联弹钢琴音乐会
正在售票
time :
8月20日 周六 19:30 - 21:00
score :
12人关注
------------------------------
di :
玄武区长江路101号南京文化...
title :
南京站-爱乐汇·“天空之城”久石让&宫崎骏动漫作品视...
正在售票
time :
7月15日 周五 19:30 - 21:30
score :
10人关注
------------------------------