我的第一个爬虫
“‘
刚刚开始接触爬虫,写下我的第一个小程序,主要是爬我以前公司的几张小图片,仅做学习之用
作者:琦琦爸爸
’”
#-*-coding:utf-8-*-
from bs4 import BeautifulSoup
import requests
#这个是定义一个自己需要爬虫的网络地址
url='http://www.sovell.com.cn/dish/index.php‘’
#利用requests中的get方法,用web_data接受爬回的数据
wb_data=requests.get(url)
#利用 lxml解析网页
soup=BeautifulSoup(wb_data.text,'lxml')
#利用css样式的方式获取相关信息,具体可以右击获得,爬虫一般分2中方式,一种是按样式来,一种是按路径来爬取
imgs=soup.select('#whyGeely > div > div > div.container > div > ul > li > div.topnav_pic > img ')
content=soup.select('#whyGeely > div > div > div.container > div > ul > li > div.topnav_txt')
#利用zip功能,分别将多个列表遍历,将相关信息存放于字典中,便于后期分析
for imgs,content in zip(imgs,content):
data={
'img':imgs.get('src'),
'content':content.get_text()
}
print(data)