文本提取工具 - TextHelper

文本提取工具

可以从一段文本中提取中特定格式的文本。

 

 


 

举例:
1. 从HTML源代码中提取出所有jpg类型的图片地址输出。

处理代码:
$Regex:http://.+/?\.jpg$
$@0$

输出结果:所以匹配正则表达式的内容


2. 为文本中所有TextHelper按先后顺序编号,并转换为小写。

处理代码:
$Regex:TextHelper$
$declare @count Integer(0,1)$
$@count.Next()$: $ToLower(@0)$

输出结果:
1:texthelper
2:texthelper
3:texthelper
......

 

 

语法说明

程序中的所有代码需要包含在二个$中才会被识别

处理代码

·         代码语法

1.  输入正则表达式
$Regex:在此输入正则表达式$

2.  注释
$*这是注释*$

1.  定义类型为Integer的对象@VarName
$declare @VarName Integer(0,1)$

2.  输出对象@VarName
$@VarName$

3.  调用对象@VarName的Next方法并输出返回值
$@VarName.Next()$

4.  调用函数ToLower将变量@VarName转换为小写字符串
$ToLower(@VarName)$

·           序列类型

1.   Integer(start,step)
整型序列类型
参数
start: 类型初始值
step:步进值,每次调用Next方法时增加
成员方法
Next()  获取下一个值

2.   Decimal(start,step)
浮点序列类型
参数
start: 类型初始值
step:步进值,每次调用Next方法时增加
成员方法
Next()  获取下一个值

·           函数

1.   ToLower(object)
将变量或字符串转换为小写形式
参数
object:待转换的对象;可为字符串或对象变量

2.   ToUpper (object)
将变量或字符串转换为大写形式
参数
object:待转换的对象;可为字符串或对象变量

·           内置变量

正则表达式的组可做为内置变量使用。

1.   整个表达式匹配的值可以变量@0引用

2.   表达式第一个组匹配的值可以用变量@1引用,其它以此类推

3.   如果捕获组限定了组名,则只能通过组名的变量引用
如正则表达式:\b(?<GName>word)\b
可以通过变量@GName引用这个组

·           字符转义
\$
转义$字符,使其失去原有意义

源文本

·           导入文本
除在源文本区输入文本外也可以使用指令从外部导入文本,语法如下:

1. 以默认的字符编码导入一个文本
 $include:http://www.a.com/test.html$

2. 以utf-8编码方式导入一个文本
 $include<utf-8>:http://www.a.com/test.html$

3. 以默认的字符编码导入多个文本(每个文本以换行分隔)
 $include:{
 
http://www.a.com/test.html
 d:\dir\test.html
 }$

4.以utf-8的字符编码导入多个文本(每个文本以换行分隔)
 $include<utf-8>:{
 
http://www.a.com/test.html
 d:\dir\test.html
 }$

 下载地址:单击下载

 

posted on 2009-12-16 21:07  Frank.Cui  阅读(3445)  评论(1编辑  收藏  举报