摘要:
正则表达式非常有用,查找、匹配、处理字符串、替换和转换字符串,输入输出等。而且各种语言都支持,例如.NET正则库,JDK正则包, Perl, JavaScript等各种脚本语言都支持正则表达式。下面整理一些常用的正则表达式。字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、... 阅读全文
随笔分类 - 正则表达式
基本-正则表达式
2014-01-03 12:40 by 江湖么名, 241 阅读, 收藏,
摘要:
原帖:http://www.cnblogs.com/rayguo/p/3478613.html我们在做爬虫的时候,要提取网页的信息,一个网页中的信息可能有很多,我们要去筛选,例如我们要获取一个网页中的所有子链接,这个就需要我们用正则表达式去匹配,匹配后得到的数据我们要的东西了,下面简单介绍一下,学过的可以当复习,没学过的就好好看看。 正则表达式:是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,简单说,就是我们写个模板,然后去匹配字符串。 下面我们来看看一些基本的正则表达式的语法: \:将下个字符标记为一个特殊的字符、一个原义字符、一个向后引用或者一个八进制转义符例如“... 阅读全文
常用正则表达式大全!(例如:匹配中文、匹配html)
2013-07-29 22:26 by 江湖么名, 269 阅读, 收藏,
摘要:
常用正则表达式大全!(例如:匹配中文、匹配html)匹配中文字符的正则表达式: [u4e00-u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了 匹配双字节字符(包括汉字在内):[^x00-xff] 评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 匹配空白行的正则表达式:ns*r 评注:可以用来删除空白行 匹配HTML标记的正则表达式:]*>.*?| 评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力 匹配首尾空白字符的正则表达式:^s*|s*$ 评注:可以用来删除行首行尾的空... 阅读全文
python 正则表达式匹配中文(转)
2013-07-27 23:40 by 江湖么名, 3759 阅读, 收藏,
摘要:
网上的一篇文章,做了整理,作者已无从考证,谢谢了 1 s=""" 2 en: Regular expression is a powerful tool for manipulating text. 3 zh: 中文 4 jp: 正規表現は非常に役に立つツールテキストを操作することです。 5 jp-char: あアいイうウえエおオ 6 kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다. 7 puc: 。?!、,;:“ ”‘ '——……·-·《》〈〉!¥%&*# 8 """ 9 prin 阅读全文
python正则的中文处理(转)
2013-07-27 23:27 by 江湖么名, 6197 阅读, 收藏,
摘要:
匹配中文时,正则表达式规则和目标字串的编码格式必须相同 print sys.getdefaultencoding() text =u"#who#helloworld#a中文x#" print isinstance(text,unicode) print textUnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 18: ordinal not in range(128)print text报错解释:控制台信息输出窗口是按照ascii编码输出的(英文系统的默认编码是a 阅读全文
正则表达式-汉字的匹配方法
2013-07-27 23:26 by 江湖么名, 2937 阅读, 收藏,
摘要:
unicode : ([\u4e00-\u9fa5]+)unicode : ([\u2E80-\u9FFF]+)utf-8 : ([\x80-\xff]+) 1 #encoding:utf-8 2 import re 3 4 5 6 def main(): 7 8 # ([\u4e00-\u9fa5]+) 9 TEST_STR_1 = u'ab123kk123'10 pattern_str = u'[0-9]+([\u4e00-\u9fa5]+)[0-9]+'11 pattern = re.compile (pattern_str)1... 阅读全文
python 正则匹配中文(unicode)(转)
2013-07-27 23:04 by 江湖么名, 21302 阅读, 收藏,
摘要:
由于 需求原因,需要匹配 提取中文,大量google下,并没有我需要的。花了一个小时大概测试,此utf8中文通过,特留文。 参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html 首先,确保所有编码都为 unicode 比如 str.decode('utf8') #从utf8文本中 u"啊l" #在控制台输出中 (罗嗦 阅读全文
浙公网安备 33010602011771号