BeatifuSoup获取淘宝商品分类

利用Beautiful Soup模块,

Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。

Beautiful Soup 的中文文档:

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#Printing%20a%20Document

程序:

#!/usr/bin/env python
#coding=utf-8
import re
import urllib2
from BeautifulSoup import BeautifulSoup
website = raw_input("请输入网址: ")
page = urllib2.urlopen(website).read()
html = BeautifulSoup(page,fromEncoding="gbk")
h = html.body.findAll(re.compile('h4|h5'))
for i in h:
    if re.search('h4',str(i)):
        print '--大类--:',i.string
    elif re.search('h5',str(i)):
        tag = i.contents[0].contents[0]
        print tag

 运行结果:

请输入网址: http://list.taobao.com/browse/cat-0.htm
--大类--: 女装男装
女式上装
女式裤子
女式裙子
其他女装
当季男装
男式裤子
男式上装
其他男装
--大类--: 鞋类箱包
春秋女鞋
夏季女鞋
春秋男鞋
夏季男鞋
特色市场
精品女包
精品男包
功能箱包
--大类--: 内衣配饰
内衣分类
内衣品牌
服装配饰
热门搜索
--大类--: 运动户外
运动鞋
运动服
运动包
户外运动用品
运动/瑜伽/健身/球迷用品
--大类--: 珠宝手表
珠宝钻石
品牌手表
流行饰品
其他配饰
--大类--: 数码
手机
相机/DV
笔记本
平板电脑
电脑周边
办公设备
网络存储
数码配件
--大类--: 家电办公
大家电
厨房电器
生活电器
影音电器
护理按摩
家电配件
--大类--: 护肤彩妆
美容护肤
彩妆香水
美发护发
热门品牌
--大类--: 母婴用品
童装
孕妇用品
新生儿
宝宝食品
宝宝用品
儿童玩具
--大类--: 家居建材
家装主材
住宅家具
家居饰品
家纺布艺
五金电工
装修设计
--大类--: 美食特产
休闲零食
营养品
有机食品
粮油米面
茶/饮料
水果蔬菜
--大类--: 日用百货
收纳整理
居家日用
餐饮用具
洗护清洁
成人用品
--大类--: 汽车摩托
汽车用品
摩托车
--大类--: 文化玩乐
书籍杂志
音像影视
乐器
古董收藏
鲜花园艺
宠物水族
个性定制
成人用品
--大类--: 本地生活
生活超市
生活服务
订餐服务
餐饮美食
卡券消费
电影演出
面包蛋糕
休闲娱乐
--大类--: 虚拟
淘宝网厅
淘宝游戏
淘宝旅行
淘宝保险

 

posted @ 2014-07-02 16:42  开心的菜花  阅读(796)  评论(0编辑  收藏  举报