我的第一个爬虫

“‘

刚刚开始接触爬虫，写下我的第一个小程序，主要是爬我以前公司的几张小图片，仅做学习之用

作者：琦琦爸爸

’”

#-*-coding:utf-8-*-
from bs4 import BeautifulSoup
import requests

#这个是定义一个自己需要爬虫的网络地址

url='http://www.sovell.com.cn/dish/index.php‘’

#利用requests中的get方法，用web_data接受爬回的数据

wb_data=requests.get(url)

#利用 lxml解析网页

soup=BeautifulSoup(wb_data.text,'lxml')

#利用css样式的方式获取相关信息，具体可以右击获得，爬虫一般分2中方式，一种是按样式来，一种是按路径来爬取

imgs=soup.select('#whyGeely > div > div > div.container > div > ul > li > div.topnav_pic > img ')
content=soup.select('#whyGeely > div > div > div.container > div > ul > li > div.topnav_txt')

#利用zip功能，分别将多个列表遍历，将相关信息存放于字典中，便于后期分析

for imgs,content in zip(imgs,content):
　　data={
　　　　'img':imgs.get('src'),
　　　　'content':content.get_text()
　　}
print(data)

posted @ 2017-05-23 19:36 琦琦爸爸阅读(100) 评论(0) 编辑收藏举报

刷新页面返回顶部

琦琦爸爸

我的第一个爬虫

公告