python 脚本开发实战-当当亚马逊图书采集器转淘宝数据包

开发环境python2.7.9 os：win-xp exe打包工具pyinstaller 界面tkinter

=============================================

最近有个朋友让我写个小功能，采集当当网数据，生成淘宝数据包

需要采集出版社，作者，主图，价格

采集方式是搜索书名或者ISBN编号

废话不多说，老司机开始上路了

首先，分析当当网数据，这里祭出大杀器，firefox下fire-bug，查看网络数据不再话下

查看源码

<ul id="component_0__0__6612" class="bigimg">
<li id="p20609259" class="line1">
<a class="pic" title=" 远去的历史场景-祀孔大典与孔庙 " ddclick="act=normalResult_picture&pos=20609259_0_2_q" name="itemlist-picture" href="http://product.dangdang.com/20609259.html" target="_blank">
<p class="name" name="title">
<p class="detail"></p>
<p class="price">
<p class="dang" style="display: block">当当自营</p>
<p class="search_star_line">
<span class="tag_box">
<p class="search_book_author">
<p class="bottom_p">
</li>

看到搜索结果是这样，

看到这个<li id="p20609259" class="line1">标签，怀疑是搜索结果的

检查了下，果然是，后面line1代表第一个

这样就好弄了，id检查了下，就是商品的id，这样更好了，只要采集这个标签就可以获得搜索结果的id列表

代码如下

def get_bookid(keyword):
    try:
        api = "http://search.dangdang.com/?key="+keyword+"&act=input"
        print api
        urlresponse = urllib2.urlopen(api,timeout=10).read()#.decode("gbk").encode("utf-8")
        re_id = re.compile(r'((?<=" id="p)[0-9]+(?=">))')
        id_all = re.findall(re_id,urlresponse)
        re_price=re.compile(r'(?<=<span class="search_now_price">&yen;).+?(?=</span>)')
        price = re.findall(re_price,urlresponse)
        return id_all,price
    except Exception, e:
        print e
        return [],[]

这里通过ISBN关键词搜索获取到了id列表，和价格列表

2，分析单品源码，看看需要的信息是否都有需要的

查到html代码部分

<meta name="description" content="当当网图书频道在线销售正版《远去的历史场景-祀孔大典与孔庙》，作者：刘亚伟　著，出版社：山东文艺出版社。最新《远去的历史场景-祀孔大典与孔庙》简介、书评、试读、价格、图片等相关信息，尽在DangDang.com，网购《远去的历史场景-祀孔大典与孔庙》，就上当当网。">

meta 里面都有了，出版社，作者

剩下就是主图了

查到html代码部分

<a href="javascript:;" data-imghref="http://img3x9.ddimg.cn/33/0/20609259-1_w.jpg">
<img src="http://img3x9.ddimg.cn/33/0/20609259-1_x.jpg">
</a>

找了下主图都是这种数字_x或者w，多次测试下来

基本确定了正则表达式

    re_img=re.compile(r'http:.+[0-9]_w_[0-9]+\.jpg')
    re_img1=re.compile(r'http:.+[0-9]_w\.jpg')
    re_img2=re.compile(r'http:.+[0-9]_k_[0-9]+\.jpg')

这3个正则基本ok了

这样就完成了

最后就是淘宝数据包格式，淘宝数据包是csv格式+文件夹

文件夹里面都是相关图片，格式是tbi，其实就是jpg换了下后缀

然后csv文件格式是unicode的

这里贴出csv数据

csv_head='''version 1.00\ntitle\tcid\tseller_cids\tstuff_status\tlocation_state\tlocation_city\titem_type\tprice\tauction_increment\tnum\tvalid_thru\tfreight_payer\tpost_fee\tems_fee\texpress_fee\thas_invoice\thas_warranty\tapprove_status\thas_showcase\tlist_time\tdescription\tcateProps\tpostage_id\thas_discount\tmodified\tupload_fail_msg\tpicture_status\tauction_point\tpicture\tvideo\tskuProps\tinputPids\tinputValues\touter_id\tpropAlias\tauto_fill\tnum_id\tlocal_cid\tnavigation_type\tuser_name\tsyncStatus\tis_lighting_consigment\tis_xinpin\tfoodparame\tsub_stock_type\titem_size\titem_weight\tbuyareatype\tglobal_stock_type\tglobal_stock_country\twireless_desc\tbarcode\tsubtitle\tsku_barcode\tcpv_memo\tinput_custom_cpv\tfeatures\tbuyareatype\tsell_promise\tcustom_design_flag\tnewprepay\tqualification\tadd_qualification\to2o_bind_service\n宝贝名称\t宝贝类目\t店铺类目\t新旧程度\t省\t城市\t出售方式\t宝贝价格\t加价幅度\t宝贝数量\t有效期\t运费承担\t平邮\tEMS\t快递\t发票\t保修\t放入仓库\t橱窗推荐\t开始时间\t宝贝描述\t宝贝属性\t邮费模版ID\t会员打折\t修改时间\t上传状态\t图片状态\t返点比例\t新图片\t视频\t销售属性组合\t用户输入ID串\t用户输入名-值对\t商家编码\t销售属性别名\t代充类型\t数字ID\t本地ID\t宝贝分类\t账户名称\t宝贝状态\t闪电发货\t新品\t食品专项\t库存计数\t物流体积\t物流重量\t采购地\t库存类型\t国家地区\t无线详情\t商品条形码\t宝贝卖点\tsku 条形码\t属性值备注\t自定义属性值\t尺码库\t采购地\t退换货承诺\t定制工具\t7天退货\t商品资质\t增加商品资质\t关联线下服务\n'''

def csv_table(title="",price="",detail="",pic1="",IBSN="",pub="",zuo="",code=""):
    csv_line = "%s\t50005701\t\t1\t\t\t1\t%s\t0\t35\t\t1\t0\t0\t0\t1\t1\t1\t0\t\t%s\t\t0\t0\t\t200\t\t0\t%s\t\t\t\"1636953,2043189,46602357,122216620\"\t\"%s,%s,%s,%s\"\t%s\t\t0\t1087745975\t0\t\t不要重复用户名\t0\t0\t0\t\t0\t\t0\t0\t-1\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t" % (title,price,detail,pic1,IBSN,zuo,title,pub,code)
    return csv_line

用上面函数返回单个商品的数据

最后保存

测试了下，基本上能达到90%的覆盖率

============================

不过作为一个老司机，是不满足这个结果的，我们的目标是要完成95%+的覆盖率经过排查，亚马逊上面的覆盖率毕竟高一点，基本上当当上找不到的亚马逊上面都能找到
作为老司机的我当然是要一试亚马逊了，这可是大公司哈

首先，老方法，urllib2.urlopen()先来探探，结果返回各种504什么的看来爬虫是不太好弄了，要模拟浏览器，比较麻烦，突然想起来亚马逊这么大公司，应该有api接口，这里务必提一下，抓网站前先看下是否有api
不然会浪费大量时间，明明都有接口，那么容易得到数据

果然，经过各种搜索，找到了接口下面放出官方测试页面

http://webservices.amazon.cn/scratchpad/index.html

api和key自己注册去，那个什么Associate Tag随便填写就行了

然后比较贴心的就是还有提供php签名实例，简直不要太贴心好吧，这里赞一个

官网给的php是生成api接口，我把最后修改了下，生成以后访问下接口，获取数据，

$handle = fopen($request_url, "rb");
$contents = stream_get_contents($handle);
fclose($handle);
header('Content-Type: text/xml');
echo $contents;

部署到自己服务器，然后传入一个查询的参数，ok，接口对接完毕，这样就完成了一个属于自己的api接口

返回数据是xml格式，还是挺不错了，

把接口写入python，做了一个函数

def get_book_data_ISBN(keyword):
    try:
        api = "http://xxxxxxx/amzon_UPC.php?ISBN="+keyword
        print api
        time.sleep(10)
        data = urllib2.urlopen(api,timeout=10).read()
        print data
        if "xml" in data:
            pic = xml("URL",xml("LargeImage",data))
            Author = xml("Author",data)
            Publisher = xml("Publisher",data)
            Price = xml("FormattedPrice",data).split(" ")[-1]
            title = xml("Title",data)[0:40]
            return pic,Author,Publisher,Price,title
        else:
            return "none","none","none","none","none"
    except Exception, e:
        print e
        return "none","none","none","none","none"

最后测试下来，达到了98%的覆盖率，这样的结果还是挺满意的

界面是用tk写的，这里找了vb的一个插件，可以生成python的界面函数，这样就可以愉快的画界面了

直接生成python界面，好用的不要不要的，太省时间了

最后用pyinstaller打包程exe，测试下来用这个打包还是挺稳定的，win7，win10，xp都可以运行

最终界面如下

posted @ 2016-11-01 21:48 darkspr 阅读(1113) 评论(0) 收藏举报

刷新页面返回顶部

darknight

python学习笔记 QQ 415857571（备注博客园）

python 脚本开发实战-当当亚马逊图书采集器转淘宝数据包

公告