随笔分类 -  正则表达式

摘要:昨天,我在做网络爬虫的时候,遇到了一个网站对文本框的输入作了编码处理: 具体作了什么样的处理,前面几句用了js的replace方法,替换了一些特殊符号,后面用了一个正则表达式进行了特殊的编码工作。我当时的文本:ACM task force on K–12 education and technolo 阅读全文
posted @ 2018-04-10 09:31 micDavid 阅读(186) 评论(0) 推荐(0) 编辑
摘要:在跟数据库打交道的时候,有一个常用的应用,就是把数据库中的表转为程序中的对象,也就是说表中的列转为对象的属性。对于字段比较少的,我们可以直接复制过去改,但是字段数比较多的时候,借助工具类实现比较方便而且不易出错,看下我的代码: 使用最多的是正则匹配。再看第51行的类型转换: 阅读全文
posted @ 2017-12-05 13:02 micDavid 阅读(623) 评论(0) 推荐(0) 编辑
摘要:有个同事想要从html网页标签中提取特定内容,让我帮忙看看。我研究了下,做了个小工具。 目标:匹配出 <p><label id="catalog_FUND">基金:</label> 这个p标签里面的a标签的内容 解决方案:由于一次性匹配出来,难度太大,因此可分为两步走,首先获取这个p标签里面的所有a 阅读全文
posted @ 2017-10-27 09:19 micDavid 阅读(5896) 评论(0) 推荐(1) 编辑
摘要:最近做word脚注用到了正则表达式的匹配替换功能。我提取rtf字符串中书签的名称,更改名称后,再替换到字符串中。看代码: 代码解释:str_Content中存储的是rtf格式的字符串,字符串中有word书签的定义,\v\bkmkstart _nf8f0c1a4cb18b4a8cae0338d4923 阅读全文
posted @ 2016-10-27 16:54 micDavid 阅读(5576) 评论(0) 推荐(0) 编辑
摘要:从网上复制了一段代码,不料代码的每一行前面都有行号加“.”,我要正确运行程序,必须得把这些多余的东西去掉。 怎么去掉呢? 首先想到的是手动去掉。 看了下,有几百行代码,那需要多长时间,才能去掉?显然,这方法可行,但是太笨了,如果一个程序员,太勤劳了,那就不聪明。 然后想到的是用vs编辑器打开,然后摁 阅读全文
posted @ 2016-08-18 17:43 micDavid 阅读(392) 评论(0) 推荐(0) 编辑