CL.TANG - 博客园

2011年10月19日

摘要：今天工作的时候突然遇到个问题，就尝试着按照领导所说要天马行空的想东西，于是那点scrapy的代码逐渐忘了的差不多了，想到用迅雷去下载一些东西，迅雷不知道怎么回事，但知道一点，他监控计算机浏览器，那么我想下载什么东西的时候，可以去获得一个遵循迅雷协议的地址，使用webbrowser模块打开这个地址就能调用迅雷做我自己的事情了。import webbrowserwebbrowser.open('http://www.google.com.hk/')我用的是windows操作系统，关于这个模块，其实有更简单，更原始的提供给我们使用：if sys.platform[:3] == &qu 阅读全文

posted @ 2011-10-19 00:37 CL.TANG 阅读(4540) 评论(0) 推荐(0) 编辑

2011年9月15日

urllib2详解

摘要：先发个牢骚：博客园这服务器也太破了吧！每次想写个什么东西这慢的，要不是看上这编辑器还不错，真难以忍受。下面是正题：先发段代码：main() { printf(&unix["\021%six\012\0"],(unix)["have"]+"fun"-0x60);}以上的一条代码是1987年，由贝尔实验室的David Korn提交的获奖作品，为什么我想起这茬儿呢？还不是因为urllib和urllib2,“大师把代码写成上面那样可以获奖，你要把代码写成那样，就是垃圾”，这不是我的话，不过是有他的意思的。我看到了urllib和urll 阅读全文

posted @ 2011-09-15 23:46 CL.TANG 阅读(14092) 评论(9) 推荐(2) 编辑

2011年8月22日

scrapy模拟登录新浪微博

摘要： hi: all, scrapy搞模拟登录真的很简单哦，以下均是在你安装scrapy成功的前提下哦. 首先，分析新浪微薄的登录流程,使用抓包工具得到下面的图片:一般来说，登录主要就是对服务器进行post数据过去，如果对方有验证码，需要验证码识别之类的东西，那是计算机图形学干的事，scrapy干不了，而新浪微博比较特别，首先大家应该清楚，新浪是个大公司，不会那么简单直接让你post数据的，所以在post请求前有一个get请求，去获取服务器的一些参数，那么，我们做的第一个事情是写一个get请求:第一步，使用scrapy的shell命令创建一些模板E:\workspace\TribuneSpide.. 阅读全文

posted @ 2011-08-22 23:28 CL.TANG 阅读(11912) 评论(14) 推荐(5) 编辑

2011年8月16日

yield关键字的使用

摘要：先来段最简单的代码：def iter(): for i in range(10): yield i调用这个方法：>>>check_iter = iter()>>>dir(check_iter)['__class__', '__delattr__', '__doc__', '__format__', '__getattribute__', '__hash__', '__init__', '__iter__', '__name_ 阅读全文

posted @ 2011-08-16 21:48 CL.TANG 阅读(706) 评论(0) 推荐(0) 编辑

2011年8月1日

scrapy项目在linux下的部署

摘要：首先，需要在linux下进行安装scrapy,假如linux系统自带的python是2.4版，那么就需要自己安装python2.6，假如是用的比较“先进" 的linux，那么里面内置的就是python2.6,那么是不是就符合我们对于python的要求了呢？不是，系统自带的python缺少python-dev, 然后安装setuptool工具，然后使用easy_install -U Scrapy来安装scrapy,假如还有其他需求可以自己装。那么在自己机器上使用scrapy开发完项目后，需要注意到在上传到服务器后，需要配置环境变量，即将当前这个项目也加入上可执行的环境变量中，那么加环境阅读全文

posted @ 2011-08-01 18:11 CL.TANG 阅读(1795) 评论(0) 推荐(0) 编辑

2011年7月5日

安装scrapy的方法详解

摘要： scrapy在国内目前使用的人比较少，除了他比较新以外，还在于他本身还有很多弊端，比如：需要的支持包比较多，这些支持包相互之间的依赖关系，导致人们在安装他的时候各种吐血，而且吐血了还不一定又正确的结果！所以，今天趁自己需要换工作环境，记录点滴。本次安装使用的系统环境是windows xp。以下给出具体步骤。我想如果照做一定能够成功哦。 1.安装python2.6.这里选择的是python2.6,为什么选择这个版本，首先，scrapy官网上明确写出：requirements:Python2.5, 2.6, 2.7 (3.x is not yet supported), 即目前只支持pytho. 阅读全文

posted @ 2011-07-05 17:55 CL.TANG 阅读(25335) 评论(21) 推荐(4) 编辑

2011年1月28日

深入研究urllib和urllib2

摘要： urllib是python自带的一个抓取网页信息一个接口，他最主要的方法是urlopen(),是基于python的open()方法的。下面是主要说明：urllib.urlopen('网址'):这里传入urlopen()的参数有特别说要求，要遵循一些网络协议，比如http,ftp,也就是说，在网址的开头必须要有http://这样的说明,如：urllib.urlopen('http://www.baidu.com')，要么就是本地文件，本地文件需要使用file关键字，比如urllib.urlopen('file:hello.py'),注意，这里的hello.py是指的是当前的classpath所指阅读全文

posted @ 2011-01-28 18:25 CL.TANG 阅读(5023) 评论(2) 推荐(1) 编辑

2011年1月21日

Python信息抽取之乱码解决

摘要：俺希望大家能多多指教，有什么错误或者不同意见请联系我　　就事论事，直说自己遇到的情况，和我不一样的路过吧，一样的就看看吧　　信息抓取，用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容，然后使用lxml或者beautifulSoup进行解析，插入mysql 具体的内容，好了貌似很简单很easy的样子，可是里面的恶心之处就来了，第一，国内开发网站的人在指定网站编码或者是保存网站源码的时候并没有考虑什么编码，反正一句话，一个网站即使你用工具查看或者查看源码头信息查看到他们的源码是utf-8,或者GBK之类的，也别信，哎，什么东西信了就阅读全文

posted @ 2011-01-21 14:55 CL.TANG 阅读(2247) 评论(0) 推荐(2) 编辑