摘要: 一个简单的多线程Python爬虫 最近想要抓取 "拉勾网" 的数据,最开始是使用 的,但是遇到了下面两个问题: 1. 前端页面是用JS模板引擎生成的 2. 接口主要是用POST提交参数的 目前不会处理使用JS模板引擎生成的HTML页面,用POST的提交参数的话,接口统一,也没有必要使用 ,所以... 阅读全文
posted @ 2015-12-19 17:30 mr_zys 阅读(51862) 评论(6) 推荐(6) 编辑
摘要: 写技术博客主要就是总结和交流的,如果文章用错,请指正啊!以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的。一、字符的编码和解码 和网页打交道,首先解决的就是web页面的编码方式,不幸的是不同网站的页面编码方式基... 阅读全文
posted @ 2015-01-28 16:47 mr_zys 阅读(3434) 评论(0) 推荐(0) 编辑
摘要: 在上一篇日志中已经讨论和实现了根据url执行相应应用,在我阅读了bottle.py官方文档后,按照bottle的设计重写一遍,主要借鉴大牛们的设计思想。一个bottle.py的简单实例来看看bottle是如何使用的,代码来自http://www.bottlepy.org/docs/0.12/inde... 阅读全文
posted @ 2014-11-28 21:51 mr_zys 阅读(3082) 评论(2) 推荐(4) 编辑
摘要: 自己动手写一个web框架,因为我是菜鸟,对于python的一些内建函数不是清楚,所以在写这篇文章之前需要一些python和WSGI的预备知识,这是一系列文章。这一篇只实现了如何处理url。参考这篇文章:http://www.cnblogs.com/russellluo/p/3338616.html预... 阅读全文
posted @ 2014-11-19 17:37 mr_zys 阅读(3588) 评论(0) 推荐(2) 编辑
摘要: 上一篇文章简单的实现了ORM(对象关系模型),这一篇文章主要实现简单的MySQL数据库操作。想要操作数据库,首先要建立一个数据库连接。下面定义一个创建数据库连接的函数,得到一个连接叫做engine。def create_engine(user,password,database,host='127.... 阅读全文
posted @ 2014-10-19 22:54 mr_zys 阅读(3010) 评论(1) 推荐(1) 编辑
摘要: 因为自己的原因,搞的现在只参加了两场面试和四场笔试。如果不出意外的话,这两场面试也会挂,笔试也是。看着拿到offer的同学,两眼泪汪汪。。。所以写点什么。。。关于Java我不擅长Java,但是我还是投的是Java的开发工作,因为有的公司只找Java工程师。我想是不是抽点时间复习一下Java,但是仔细... 阅读全文
posted @ 2014-10-18 06:11 mr_zys 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 最近想做一个小web应用,就是把豆瓣读书和亚马逊等写有书评的网站上关于某本书的打分记录下来,这样自己买书的时候当作参考。这篇日志这是以豆瓣网为例,只讨论简单的功能。向服务器发送查询请求这很好处理,找到网站的搜索框,然后填入相关信息,提交后查看url即可。这里以豆瓣为例,当我在http://book.... 阅读全文
posted @ 2014-10-12 00:00 mr_zys 阅读(3289) 评论(2) 推荐(2) 编辑
摘要: 首先大致的学习一下有限自动机字符匹配算法,然后在讨论KMP算法。有限自动机一个有限自动机M是一个五元组(Q,q0,A,Σ,δ),其中:Q是状态的集合,q0∈Q是初始状态,A是Q的字集,是一个接受状态集合,Σ是一个有限的输入字母表,δ是一个从Q×Σ到Q的函数,叫做转移函数。下面定义几个相关函数:φ(w... 阅读全文
posted @ 2014-10-09 16:29 mr_zys 阅读(1259) 评论(0) 推荐(1) 编辑
摘要: 之前已经讨论过进程了,现在讨论线程。我在想如何用现实中的具体事物来比较进程和线程的关系。举个我认为较恰当的例子。把进程比作一个工厂中的车间,车间中有若干个生产线,但是每条生产线都需要不同的零件,原料和员工。零件,原料和员工,是所有生产线都可以共同使用的资源。这里就把生产线当做线程吧。这样,每条生产线... 阅读全文
posted @ 2014-10-07 08:28 mr_zys 阅读(1610) 评论(6) 推荐(0) 编辑
摘要: 大二其实已经学习过了快排,但是现在基本上已经忘记了快排的细节和具体实现。现在为了准备可能的面试,重新复习一下快速排序。温故知新,古人诚不欺我。主要以《算法导论》为教材。《算法导论》这本书在介绍算法时,首先给出算法的描述,也就是伪码,然后就是算法的正确性证明和优化。本文首先也是给出算法的伪码,至于正确... 阅读全文
posted @ 2014-10-06 21:00 mr_zys 阅读(1431) 评论(2) 推荐(1) 编辑