随笔 - 911  文章 - 5  评论 - 94  阅读 - 243万

spider-抓取网页内容(Beautiful soup)

http://jingyan.baidu.com/article/afd8f4de6197c834e386e96b.html

http://cuiqingcai.com/1319.html

Windows下安装Beautifulsoup:

1.下载压缩包:https://www.crummy.com/software/BeautifulSoup/#Download

2.将其解压到Python目录下

3.导航到如下目录,然后运行如下命令:

   setup.py build

   setup.py install

4.进入Python,导入BS模块,表示安装成功

   from bs4 import BeautifulSoup

 

实例:bs抓取天气预报:

复制代码
# -*- coding: UTF-8 -*-

import urllib2,sys,json
from json import *
from bs4 import BeautifulSoup as bs

reload(sys)
sys.setdefaultencoding('utf-8')

url='http://www.weather.com.cn/weather/101010100.shtml'
req = urllib2.Request(url)
res = urllib2.urlopen(req).read()

soup = bs(res)
#print soup.prettify()


divsw = soup.find_all('div',class_='c7d',id='7d')[0]  #7天的预报内容都在该div下,查询结果为queryset,所以需要使用索引0
divs_date = divsw.find_all('h1') #find date
for h in divs_date:
    print h.string

divs_wea = divsw.find_all('p',class_='wea') #find weather
for p in divs_wea:
    print p.get('title')

divs_tem = divsw.find_all('p',class_='tem') #find weather
for tem in divs_tem:
    tem_max = tem.find('span').string
    tem_min = tem.find('i').string
    print tem_min,'-',tem_max



        
复制代码

 结果:

posted on   momingliu11  阅读(589)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示