摘要: 1.下载pyinstaller并解压(可以去官网下载最新版):http://nchc.dl.sourceforge.net/project/pyinstaller/2.0/pyinstaller-2.0.zip2.下载pywin32并安装(注意版本,我的是python2.7):http://down... 阅读全文
posted @ 2014-05-22 15:23 幻星宇 阅读(1997) 评论(0) 推荐(0) 编辑
摘要: 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。源码下载:http://download.csdn.net/detail/wxg694175346/6925583项目内容:用Python写的百度贴吧的网络爬虫。使用方法:新建一个BugBai... 阅读全文
posted @ 2014-05-22 15:22 幻星宇 阅读(837) 评论(1) 推荐(0) 编辑
摘要: 源码下载:http://download.csdn.net/detail/wxg694175346/6925583项目内容:用Python写的糗事百科的网络爬虫。使用方法:新建一个Bug.py文件,然后将代码复制到里面后,双击运行。程序功能:在命令提示行中浏览糗事百科。原理解释:首先,先浏览一下糗事... 阅读全文
posted @ 2014-05-22 15:21 幻星宇 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010... 阅读全文
posted @ 2014-05-22 15:19 幻星宇 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 1 # -*- coding: utf-8 -*- 2 #--------------------------------------- 3 # 程序:百度贴吧爬虫 4 # 版本:0.1 5 # 作者:why 6 # 日期:2013-05-14 7 # 语言:Python 2.... 阅读全文
posted @ 2014-05-22 15:15 幻星宇 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。新建test14来实现一个简单的代理Demo:[python]view plaincopyimporturllib2e... 阅读全文
posted @ 2014-05-22 15:12 幻星宇 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或... 阅读全文
posted @ 2014-05-22 10:16 幻星宇 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。1.URLError... 阅读全文
posted @ 2014-05-22 10:13 幻星宇 阅读(380) 评论(0) 推荐(0) 编辑
摘要: Python开发有很多工具,其中Eclipse+Pydev 是最常见的一种。本文简单介绍Windows下Eclipse+PyDev 安装和配置。 Eclipse 是一种基于 Java 的可扩展开源开发平台。就其自身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。 PyDev 是Ec... 阅读全文
posted @ 2014-05-22 10:01 幻星宇 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2... 阅读全文
posted @ 2014-05-22 09:56 幻星宇 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这... 阅读全文
posted @ 2014-05-22 09:29 幻星宇 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 1. 线程基础1.1. 线程状态线程有5种状态,状态转换的过程如下图所示:1.2. 线程同步(锁)多线程的优势在于可以同时运行多个任务(至少感觉起来是这样)。但是当线程需要共享数据时,可能存在数据不同步的问题。考虑这样一种情况:一个列表里所有元素都是0,线程"set"从后向前把所有元素改成1,而线程... 阅读全文
posted @ 2014-05-22 09:25 幻星宇 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 1. 字符编码简介1.1. ASCIIASCII(American Standard Code for Information Interchange),是一种单字节的编码。计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号。不过ASCII只用到了... 阅读全文
posted @ 2014-05-22 09:23 幻星宇 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实... 阅读全文
posted @ 2014-05-22 09:22 幻星宇 阅读(145) 评论(0) 推荐(0) 编辑