摘要: 架构相关领域的学习材料http://hi.baidu.com/linsd99/item/c51cbb773c9be25a0c0a074f对于工程师来说,到一定阶段后往往会遇到成长瓶颈。要突破此瓶颈,需要在所属技术领域更深入学习,了解本领域的问题本质、方法论与设计理念、发展历史等。以下提供一些架构相关领域的学习材料,附上简单点评,供有兴趣的工程师参考。希望大家能通过对这些领域的了解和学习,掌握更多system design principles,在自己的工作中得心应手,步入自由王国。1. Operating SystemsMach[Intro:http://www-2.cs.cmu.edu/af 阅读全文
posted @ 2014-01-03 17:52 Django's blog 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 深入浅出之正则表达式(一)http://www.cnblogs.com/dragon/archive/2006/05/08/394078.html前言:半年前我对正则表达式产生了兴趣,在网上查找过不少资料,看过不少的教程,最后在使用一个正则表达式工具RegexBuddy时发现他的教程写的非常好,可以说是我目前见过最好的正则表达式教程。于是一直想把他翻译过来。这个愿望直到这个五一长假才得以实现,结果就有了这篇文章。关于本文的名字,使用“深入浅出”似乎已经太俗。但是通读原文以后,觉得只有用“深入浅出”才能准确的表达出该教程给我的感受,所以也就不能免俗了。本文是Jan Goyvaerts为Regex 阅读全文
posted @ 2014-01-03 17:40 Django's blog 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 深入浅出之正则表达式(二)http://dragon.cnblogs.com/archive/2006/05/09/394923.html前言:本文是前一片文章《深入浅出之正则表达式(一)》的续篇,在本文中讲述了正则表达式中的组与向后引用,先前向后查看,条件测试,单词边界,选择符等表达式及例子,并分析了正则引擎在执行匹配时的内部机理。本文是Jan Goyvaerts为RegexBuddy写的教程的译文,版权归原作者所有,欢迎转载。但是为了尊重原作者和译者的劳动,请注明出处!谢谢!9.单词边界元字符>也是一种对位置进行匹配的“锚”。这种匹配是0长度匹配。有4种位置被认为是“单词边界”:1) 阅读全文
posted @ 2014-01-03 17:39 Django's blog 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 元字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“\\n”匹配一个换行符。“\n”匹配字符"n"。序列“\\”匹配“\”而“\(”则匹配“(”。^匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。$匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。*匹配前面的子表达式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等价于{0,}。+匹配前面的子表达式一次或多次。例如,“zo+”能匹配“ 阅读全文
posted @ 2014-01-03 17:27 Django's blog 阅读(510) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/coderzh/archive/2008/05/06/1185755.html简介Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。Python 1.5之前版本则是通过 regex 模块提供 Emecs 风格的模式。Emacs 风格模式可读性稍差些,而且功能也不强,因此编写新代码时尽量不要再使用 regex 模块,当然偶尔你还是可能在老代码里发现其踪影。就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。使用这个小型语言,你可 阅读全文
posted @ 2014-01-03 16:28 Django's blog 阅读(318) 评论(0) 推荐(0) 编辑
摘要: Python之re模块 —— 正则表达式操作转自:http://www.cnblogs.com/PythonHome/archive/2011/11/19/2255459.html这个模块提供了与 Perl 相似l的正则表达式匹配操作。Unicode字符串也同样适用。正则表达式使用反斜杠" \ "来代表特殊形式或用作转义字符,这里跟Python的语法冲突,因此,Python用"\\\\"表示正则表达式中的" \ ",因为正则表达式中如果要匹配" \ ",需要用\来转义,变成" \\ ",而Pyt 阅读全文
posted @ 2014-01-03 15:54 Django's blog 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 1.quote:使用适合URL内容的转义序列替换String中的特殊字符。2.quote_plus:调用quote并使用“+”替换所有空格3.unquote:使用转义字符的单字符对应物替换'%xx'的转义序列。4.unquote_plus:使用+替换空格,其他同unquote。 阅读全文
posted @ 2014-01-03 15:28 Django's blog 阅读(406) 评论(0) 推荐(0) 编辑
摘要: import,reload,__import__在python中的区别http://blog.csdn.net/five3/article/details/7762870import作用:导入/引入一个python标准模块,其中包括.py文件、带有__init__.py文件的目录。e.g:[python]view plaincopyimportmodule_name[,module1,...]frommoduleimport*|child[,child1,...]说明:多次重复使用import语句时,不会重新加载被指定的模块,只是把对该模块的内存地址给引用到本地变量环境。测试:[python] 阅读全文
posted @ 2014-01-03 14:53 Django's blog 阅读(371) 评论(0) 推荐(0) 编辑
摘要: http://flyheaven.blog.163.com/blog/static/7401172201193085243920/1.Python内建异常体系结构The class hierarchy for built-in exceptions is:BaseException+-- SystemExit+-- KeyboardInterrupt+-- GeneratorExit+-- Exception+-- StopIteration+-- StandardError| +-- BufferError| +-- ArithmeticError| | +-- FloatingPointE 阅读全文
posted @ 2014-01-03 11:27 Django's blog 阅读(410) 评论(0) 推荐(0) 编辑
摘要: error:SyntaxError: Non-ASCII character '\xe5' in file D:\worklife\workshop\myCrawler\src\mainDriver.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for detailssolve:python的默认编码文件是用的ASCII码,你将文件存成了UTF-8,解决办法很简单,在文件开头加入#-*-coding:UTF-8-*-或者#coding=utf-8 阅读全文
posted @ 2014-01-03 10:50 Django's blog 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫-url索引http://www.cnblogs.com/yuandong/archive/2008/08/28/Web_Spider_Url_Index.htmlurl索引的作用是判断一个url是否被抓取过,采用的算法主要是MD5数字签名。假设一共要抓取的url不超过1亿条,用一个二进制的位表示一个url是否被抓取过,则至少需要1亿个位,我们管每一个位叫一个“槽”。考虑到MD5的算法是可能出现冲突(即不同的url算出来的MD5可能相同,这种概率很小),槽越少,冲突越明显,所以槽越多越好。但另一方面,还要考虑到占用内存的大小,因为在抓取的过程中,为了保证效率,所有的槽都需要载入内存。目 阅读全文
posted @ 2014-01-03 10:36 Django's blog 阅读(1162) 评论(0) 推荐(0) 编辑