python爬虫：爬取易迅网价格信息，并写入Mysql数据库

本程序涉及以下方面知识：

1.python链接mysql数据库：http://www.cnblogs.com/miranda-tang/p/5523431.html

2.爬取中文网站以及各种乱码处理:http://www.cnblogs.com/miranda-tang/p/5566358.html

3.BeautifulSoup使用

4.原网页数据信息不全用字典的方式，把不存在的字段设置为空

详细代码：

#!/usr/bin/python
# -*- encoding:utf-8 -*-

'''
思路：
1.从易迅网爬取冰箱的数据，包括品牌，型号，价格，容积，能效等级，制冷方式，门款式，显示方式，定频/变频，除霜模式，操作方式
2.存入MYSQL数据库
本次限定为：300L以上的冰箱

环境：win32 python2.7
'''

from bs4 import BeautifulSoup
import requests
import MySQLdb
import datetime
#编码
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#连接数据库，并插入爬到的数据
def insert_db(page_list):
    try:
        #注意链接时加上charset='utf8'解决编码问题
        conn = MySQLdb.connect(user='root', passwd='112233aa',host='192.168.1.14',db='miranda.tang',charset='utf8')
        cursor = conn.cursor()
        #删除当日已插入数据，避免重复插入
        cursor.execute('DELETE FROM yixun_price_refrigerator WHERE update_day=CURRENT_DATE()')
        conn.commit()   #提交
        #用executemany一次性提交爬取数据，比直接用execute快
        sql='INSERT INTO yixun_price_refrigerator values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)'
        cursor.executemany(sql, page_list)
        conn.commit()   #提交
        cursor.close() #关闭cursor
        conn.close()   #关闭连接
    except Exception as e:
        print e
        conn.rollback()
#得到soup
def urlBS(url):
    response=requests.get(url)
    soup = BeautifulSoup(response.text,"lxml")
    return soup
#得到一共有多少页
def get_pagenumber(url):
    soup=urlBS(url)
    page=soup.select('.sort_page_num span')[0]
    page_contents=page.contents[1]
    pagenumber=int(page_contents.replace('/',''))
    return pagenumber
#得到页面信息
def get_info(product_url):
    soup=urlBS(product_url)
    # print soup
    #get title
    title = unicode(soup.title.text.strip().strip(u'【价格_报价_图片_行情】-易迅网').replace(u'】',''))\
        .encode('utf-8').decode('utf-8')
    #print title

    #get_原价
    try:
        soup_origin = soup.find("dl", { "class" : "xbase_item xprice xprice_origin" })
        price_origin = soup_origin.find("span", { "class" : "mod_price xprice_val" }).\
            contents[1].text.encode('utf-8').decode('utf-8')
       # print u'原价：' + price_origin
    except:
        price_origin=0
        #pass

    #get 现价
    try:
        soup_sale= soup.find('dl',{'class':'xbase_item xprice'})
        price_sale = soup_sale.find("span", { "class" : "mod_price xprice_val" }).contents[1].encode('utf-8').decode('latin1')
        #print u'现价：'+ price_sale
    except:
        price_sale=0
        #pass

    #得到列名名称
    oup_info_name=soup.find_all('td',{'class':'name'})
    # for each in oup_info_name:
    #     print each.contents[0].encode('utf-8').decode('utf-8')
    name_list=[each.contents[0].encode('utf-8').decode('utf-8') for each in oup_info_name]

    #得到内容
    soup_info_desc=soup.find_all('td',{'class':'desc'})
    # for each in soup_info_desc:
    #prod_list=[soup_info_desc[0].contents[0].encode('utf-8').decode('latin1')]
    prod_list=[each.contents[0].encode("utf-8").decode("utf-8") for each in soup_info_desc] #用列表生成式将原表格中的数据放入列表中
    pro_dic={}
    pro_list=[today,product_url,title,price_origin,price_sale]
    #因为列名爬取数据中不分数据是没有的，通过字典的方式，把没有的数据记录为空
    for i in range(len(name_list)):
        pro_dic[name_list[i]]=prod_list[i]

    name=['品牌','型号','颜色','能效等级','冰箱容积','制冷方式','门款式','重量','尺寸','制冷类型',
          '显示方式','定频/变频','除霜模式',   '冷冻室温度区间','冷藏室温度区间','冰箱冷柜机型','操作方式']

    for each in name:
        try:
            each=each.encode("utf-8").decode("utf-8")
            pro_list.append(pro_dic[each])
            # print pro_dic[each]
        except:
            pro_list.append('')
            # print 'null'

    # print pro_list
    # print len(pro_list)
    page_list.append(pro_list)

#得到商品页链接
def get_product_href(url):
    soup=urlBS(url)
    product_list=soup.select('#itemList .mod_goods_img a')
    # print product_list
    for i in range(len(product_list)):
        pro=product_list[i]
        pro_href=pro['href']
        # return pro_href
        #print pro_href
        get_info(pro_href)

if __name__=='__main__':
    beseurl='http://searchex.yixun.com/html?path=705882t705892&attr=42515e1o2o3o4o5o6o7'
    max_number=get_pagenumber(beseurl)
    page_list=[]
    today=datetime.date.today()     #得到当前日期，插入更新日期
    for i in range(1,max_number+1):
    # for i in range(1,2):
        newurl=beseurl+'&page='+str(i)
        #print newurl
        get_product_href(newurl)

    insert_db(page_list)

    print("It's all done")

#建表
# drop table yixun_price_refrigerator;
# CREATE TABLE yixun_price_refrigerator(
# update_day date                 -- 更新日期
# ,product_url    VARCHAR(300)    -- 商品链接
# ,title VARCHAR(300) -- 名称
# ,price_origin VARCHAR(100)   -- 原价
# ,price_sale VARCHAR(100) -- 现价
# ,Brands VARCHAR(100)   -- 品牌
# ,Goods_sn VARCHAR(100)   -- 型号
# ,Colour VARCHAR(100)   -- 颜色
# ,Energy_efficiency_rating VARCHAR(100)   -- 能效等级
# ,Refrigerator_volume VARCHAR(100)   -- 冰箱容积
# ,Refrigeration VARCHAR(100)   -- 制冷方式
# ,Door_style VARCHAR(100)   -- 门款式
# ,weight VARCHAR(100)   -- 重量
# ,size VARCHAR(100)   -- 尺寸
# ,Cooling_type VARCHAR(100)   -- 制冷类型
# ,Display_method VARCHAR(100)   -- 显示方式
# ,frequency VARCHAR(100)   -- 定频/变频
# ,Defrost_mode VARCHAR(100)   -- 除霜模式
# ,Freezer_temperature_range VARCHAR(100)   -- 冷冻室温度区间
# ,Save_temperature_range VARCHAR(100)   -- 冷藏室温度区间
# ,Fridge_freezer_models VARCHAR(100)   -- 冰箱冷柜机型
# ,Operation_method VARCHAR(100)   -- 操作方式
# );

结果：

posted on 2016-06-07 11:00 miranda_tang 阅读(2382) 评论(0) 编辑收藏举报

刷新页面返回顶部

小星星学数据

python爬虫：爬取易迅网价格信息，并写入Mysql数据库

导航

公告