摘要: 今天爬虫(新浪微博 个人信息页面)的时候遇到了转义和正则匹配中文出乱码的问题。 先给出要匹配的部分网页源代码如下: 昵称:他们叫我远凸哥哥\r\n\t\t 想要匹配得到的结果是这个人的昵称,即“他们叫我远凸哥哥”1.转义 比较简单,需要转义的是反斜杠(\)和引号(")1 >>> cont... 阅读全文
posted @ 2015-08-11 11:37 丰丰丰 阅读(2628) 评论(0) 推荐(0) 编辑