用requests库和BeautifulSoup4库爬取新闻列表
- 用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。
import urllib.request as urllib2
from bs4 import BeautifulSoup
url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
request=urllib2.Request(url)
response=urllib2.urlopen(request)
bsObj=BeautifulSoup(response.read(),"html.parser")
for i in bsObj.select('li'):
if len(i.select('.news-list-title')) > 0:
time = i.select('.news-list-info')[0].contents[0].text
source=i.select('.news-list-info')[0].contents[1].text
title = i.select('.news-list-title')[0].text
describe=i.select('.news-list-description')[0].text
url = i.select('a')[0]['href']
print(time,title,url,describe)
- 选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。