巧用NotePad++ 做文本处理

利用Notepad++处理文本,其中涉及文本的合并,去除空行,插件安装,查找与替换等。

首先,批量处理文本,也就是把所有的语料放到一个txt文档中。很好办,cmd命令下输入如下操作符就可以了。(表示把E盘目录下Camera文件下的所有东西都写入到Camera.txt文档中,Camera.txt自动创建的。

 

如果操作成功,则显示如下:

 

 

然后到E盘Camera.txt中查看就行了。(Notepad++ 打开)

然后就是文本的处理的,发现文本中含有如图红线所示的东西,那么就去掉吧!

选择“搜索”---“替换”,先从简单的开始。

 

下面替换部分敲“空格”就OK了。这样就依次把<DOC> </DOC><TEXT>等去掉了。

 

剩下的就是比较复杂点的<DOCID>*****</DOCID>,因为****部分是变化了,所以使用正则表达式处理。如图:

 

 

这样就把所有不相干的东西处理掉了!如图:干净了很多了。

 

最后就是处理文档,按照“。”、”!“,”?“等标示句子结束的符号进行分句。好办,不用写程序,还是用NotePad++ 啦!

点击“搜索”———“替换”(跟刚才一样)

 

查找目标部分写入“。”“?”等等,一次处理一个吧!替换部分输入“\r”表示换行。

切记:下面一定要勾选“扩展”,然后“全部替换”。就OK了!其他符号也是这么处理滴。看看效果:

 

已经分好行了,但是还有很多空白行,十分不美观。下面就是处理空白行了。这个得安装一个叫textfx的插件。

把压缩包中的文件放到Notepad++安装目录下的plugins目录下,然后重启NotePad++,就出现了。

 

 

首先,选择如图(表示去除多余的空格):

然后,CTRL+A,全选,

 

选择,TextFX----TextFX Edit---Delete Blank Lines 就行了。

最后效果如下:

 

 

posted @ 2012-03-26 17:45  简道云  阅读(7262)  评论(0编辑  收藏  举报