摘要: 网络爬虫-url索引http://www.cnblogs.com/yuandong/archive/2008/08/28/Web_Spider_Url_Index.htmlurl索引的作用是判断一个url是否被抓取过,采用的算法主要是MD5数字签名。假设一共要抓取的url不超过1亿条,用一个二进制的位表示一个url是否被抓取过,则至少需要1亿个位,我们管每一个位叫一个“槽”。考虑到MD5的算法是可能出现冲突(即不同的url算出来的MD5可能相同,这种概率很小),槽越少,冲突越明显,所以槽越多越好。但另一方面,还要考虑到占用内存的大小,因为在抓取的过程中,为了保证效率,所有的槽都需要载入内存。目 阅读全文
posted @ 2014-01-03 10:36 Django's blog 阅读(1159) 评论(0) 推荐(0) 编辑
摘要: python语法-[with来自动释放对象]http://www.cnblogs.com/itech/archive/2011/01/13/1934779.html一 withpython中的with的作用是自动释放对象,即使对象在使用的过程中有异常抛出。可以使用with的类型必须实现__enter__ __exit__。我的理解是=try...finally{},在finally中调用了释放函数。[类似与CSharp中的using(){}关键字,用来自动确保调用对象的dispose()方法,即使对象有异常抛出。C#中可以使用using{}的对象必须已经实现了IDispose接口。]defTe 阅读全文
posted @ 2014-01-02 14:38 Django's blog 阅读(561) 评论(0) 推荐(0) 编辑
摘要: http://www.searchdatabase.com.cn/showcontent_38045.htmMySQL性能优化的21个最佳实践 1. 为查询缓存优化你的查询 大多数的MySQL服务器都开启了查询缓存。这是提高性最有效的方法之一,而且这是被MySQL的数据库引擎处理的。当有很多相同的查询被执行了多次的时候,这些查询结果会被放到一个缓存中,这样,后续的相同的查询就不用操作表而直接访问缓存结果了。 这里最主要的问题是,对于程序员来说,这个事情是很容易被忽略的。因为,我们某些查询语句会让MySQL不使用缓存。请看下面的示例: 上面两条SQL语句的差别就是 CURDATE() ... 阅读全文
posted @ 2014-01-02 14:32 Django's blog 阅读(412) 评论(0) 推荐(0) 编辑
摘要: python操作MySQL数据库转自:http://www.cnblogs.com/rollenholt/archive/2012/05/29/2524327.html坚持每天学一点,每天积累一点点,作为自己每天的业余收获,这个文章是我在吃饭的期间写的,利用自己零散的时间学了一下python操作MYSQL,所以整理一下。我采用的是MySQLdb操作的MYSQL数据库。先来一个简单的例子吧:?12345678910import MySQLdbtry:conn=MySQLdb.connect(host='localhost',user='root',passwd=& 阅读全文
posted @ 2014-01-02 14:08 Django's blog 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 转:http://ciniao.me/article.php?id=17range函数说明:range([start,]stop[,step]),根据start与stop指定的范围以及step设定的步长,生成一个序列。range示例:>>>range(5)[0,1,2,3,4]>>>range(1,5)[1,2,3,4]>>>range(0,6,2)[0,2,4]xrange函数说明:用法与range完全相同,所不同的是生成的不是一个数组,而是一个生成器。xrange示例:>>>xrange(5)xrange(5)> 阅读全文
posted @ 2014-01-02 11:21 Django's blog 阅读(3181) 评论(0) 推荐(0) 编辑
摘要: 转:http://blog.csdn.net/bravezhe/article/details/8585437Python:使用threading模块实现多线程编程一[综述]Python这门解释性语言也有专门的线程模型,Python虚拟机使用GIL(Global Interpreter Lock,全局解释器锁)来互斥线程对共享资源的访问,但暂时无法利用多处理器的优势。在Python中我们主要是通过thread和 threading这两个模块来实现的,其中Python的threading模块是对thread做了一些包装的,可以更加方便的被使用,所以我们使用 threading模块实现多线程编程。 阅读全文
posted @ 2014-01-02 11:06 Django's blog 阅读(2305) 评论(0) 推荐(0) 编辑
摘要: python Queue模块转自:http://blog.csdn.net/bravezhe/article/details/8588437分类:PYTHON2013-02-18 16:433864人阅读评论(1)收藏举报创建一个“队列”对象import Queuemyqueue = Queue.Queue(maxsize = 10)Queue.Queue类即是一个队列的同步实现。队列长度可为无限或者有限。可通过Queue的构造函数的可选参数maxsize来设定队列长度。如果maxsize小于1就表示队列长度无限。将一个值放入队列中myqueue.put(10)调用队列对象的put()方法在队 阅读全文
posted @ 2014-01-02 11:01 Django's blog 阅读(829) 评论(0) 推荐(0) 编辑
摘要: http://mianshi.fenzhi.com/post/1529.htmlpass语句什么也不做,一般作为占位符或者创建占位程序,pass语句不会执行任何操作,比如:while False:passpass通常用来创建一个最简单的类:class MyEmptyClass:passpass在软件设计阶段也经常用来作为TODO,提醒实现相应的实现,比如:def initlog(*args):pass #please implement this 阅读全文
posted @ 2014-01-02 10:50 Django's blog 阅读(6387) 评论(0) 推荐(0) 编辑
摘要: Python的作用域转自:http://www.cnblogs.com/frydsh/archive/2012/08/12/2602100.html Python是静态作用域语言,尽管它自身是一个动态语言。也就是说,在Python中变量的作用域是由它在源代码中的位置决定的,这与C有些相似,但是Python与C在作用域方面的差异还是非常明显的。 接下来会谈论Python的作用域规则,在这中间也会说明一下Python与C在作用域方面的不同。 在Python 2.0及之前的版本中,Python只支持3种作用域,即局部作用域,全局作用域,内置作用域;在Python 2.2中,Python正式引入... 阅读全文
posted @ 2014-01-02 10:18 Django's blog 阅读(571) 评论(0) 推荐(0) 编辑
摘要: Eclipse颜色主题插件:EclipseColorThemehttp://blog.sina.com.cn/s/blog_674212810101go8x.html一个很赞的eclipse插件,可以简单方便地实现eclipse下的代码配色。另外插件作者还专门为此插件做了一个eclipse配色网站,配色多达728个,开发者们也可以在此网站分享自己的配色方案。插件设置界面:安装方法:如果是Eclipse 3.6 (Helios)版本,可以打开 Help -> Eclipse Marketplace 搜索Eclipse Color Theme来进行安装。Eclipse 3.5 (Galile 阅读全文
posted @ 2013-12-31 15:35 Django's blog 阅读(446) 评论(0) 推荐(0) 编辑