Chen Jian

导航

 

2014年1月25日

摘要: 转自:http://blog.csdn.net/pleasecallmewhy/article/details/8925978 前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。 如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理... 阅读全文
posted @ 2014-01-25 16:44 Chen Jian 阅读(601) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://blog.csdn.net/pleasecallmewhy/article/details/8934726 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。 项目内容: 用Python写的百度贴吧的网络爬虫。 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。 程序功能: ... 阅读全文
posted @ 2014-01-25 15:58 Chen Jian 阅读(722) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://blog.csdn.net/pleasecallmewhy/article/details/8932310 项目内容: 用Python写的糗事百科的网络爬虫。 使用方法: 新建一个Bug.py文件,然后将代码复制到里面后,双击运行。 程序功能: 在命令提示行中浏览糗事百科。 原理解释: 首先,先浏览一下糗事百科的主页:http://www.qiushibaike... 阅读全文
posted @ 2014-01-25 15:56 Chen Jian 阅读(647) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://blog.csdn.net/pleasecallmewhy/article/details/8929576#t4 接下来准备用糗百做一个爬虫的小例子。 但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。 正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。 一、 正则表达式基础 1.1.概念介绍 正则表达式是用... 阅读全文
posted @ 2014-01-25 15:54 Chen Jian 阅读(3643) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://blog.csdn.net/pleasecallmewhy/article/details/8927832# -*- coding: utf-8 -*-#---------------------------------------# 程序:百度贴吧爬虫# 版本:0.1# 作者:why# 日期:2013-05-14# 语言:Python 2.7# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。# 功能:下载对应页码内的所有页面并存储为html文件。#-------------------------------------... 阅读全文
posted @ 2014-01-25 15:34 Chen Jian 阅读(524) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://blog.csdn.net/pleasecallmewhy/article/details/8924889 在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl() 1.geturl(): 这个返回获取的真实... 阅读全文
posted @ 2014-01-25 15:14 Chen Jian 阅读(932) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://blog.csdn.net/pleasecallmewhy/article/details/8923725 先来说一说HTTP的异常处理问题。 当urlopen不能够处理一个response时,产生urlError。 不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。 HTTPError是urlError的子类,通常... 阅读全文
posted @ 2014-01-25 14:55 Chen Jian 阅读(2468) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://blog.csdn.net/pleasecallmewhy/article/details/8923067 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们使用urllib2这个组件来抓取网页。 ... 阅读全文
posted @ 2014-01-25 14:44 Chen Jian 阅读(2144) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://blog.csdn.net/pleasecallmewhy/article/details/8922826一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来,网络爬虫就是一个爬 阅读全文
posted @ 2014-01-25 14:37 Chen Jian 阅读(568) 评论(0) 推荐(0) 编辑
 
摘要: 1.下载pyinstaller并解压(可以去官网下载最新版): http://nchc.dl.sourceforge.net/project/pyinstaller/2.0/pyinstaller-2.0.zip 2.下载pywin32并安装(注意版本,我的是python2.7): http://download.csdn.net/download/lanlandechong/4367925... 阅读全文
posted @ 2014-01-25 11:47 Chen Jian 阅读(1420) 评论(0) 推荐(0) 编辑
 
摘要: 我经常用python写些脚本什么的,有时候脚本写完以后,每次运行都得在IDE打开在运行,很麻烦,所以经常将python编译成exe.SO...有了一点经验,在这和大家分享一下。 python 打包成exe 主要有两种,一种是py2exe,另一种便是pyInstaller,之前我是用py2exe的,但是我后来发现py2exe存在问题:1,打包好的 exe只能在相同的系统下运行,比如你在XP系统用py2exe打包好的exe只能在XP上运行,在win7上肯定有问题,而且也是存在在别的XP机子上也可能不能运行,因为一些别的机子可能会缺少dll文件什么的,作者我当时之所以抛弃py2exe 也是因为这个. 阅读全文
posted @ 2014-01-25 11:42 Chen Jian 阅读(40724) 评论(1) 推荐(4) 编辑
 
摘要: 1.需要用到的结构typedef struct _SM_PARAM{char SCA[16];//+8613552678753// 短消息服务中心号码(SMSC地址)char TPA[16];// 目标号码或回复号码(TP-DA或TP-RA)char TP_PID;// 用户信息协议标识(TP-PID),00 GSM短信,[99短信状态报告,内部标识]char TP_DCS;// 用户信息编码方式(TP-DCS)char TP_SCTS[16];//030325122030// 服务时间戳字符串(TP_SCTS), 接收时用到char ... 阅读全文
posted @ 2014-01-25 08:15 Chen Jian 阅读(1523) 评论(0) 推荐(0) 编辑