文本提取工具 - TextHelper
文本提取工具
可以从一段文本中提取中特定格式的文本。
举例:
1. 从HTML源代码中提取出所有jpg类型的图片地址输出。
处理代码:
$Regex:http://.+/?\.jpg$
$@0$
输出结果:所以匹配正则表达式的内容
2. 为文本中所有TextHelper按先后顺序编号,并转换为小写。
处理代码:
$Regex:TextHelper$
$declare @count Integer(0,1)$
$@count.Next()$: $ToLower(@0)$
输出结果:
1:texthelper
2:texthelper
3:texthelper
......
语法说明
程序中的所有代码需要包含在二个$中才会被识别
“处理代码”区
· 代码语法
1. 输入正则表达式
$Regex:在此输入正则表达式$
2. 注释
$*这是注释*$
1. 定义类型为Integer的对象@VarName
$declare @VarName Integer(0,1)$
2. 输出对象@VarName
$@VarName$
3. 调用对象@VarName的Next方法并输出返回值
$@VarName.Next()$
4. 调用函数ToLower将变量@VarName转换为小写字符串
$ToLower(@VarName)$
· 序列类型
1. Integer(start,step)
整型序列类型
参数
start: 类型初始值
step:步进值,每次调用Next方法时增加
成员方法
Next() 获取下一个值
2. Decimal(start,step)
浮点序列类型
参数
start: 类型初始值
step:步进值,每次调用Next方法时增加
成员方法
Next() 获取下一个值
· 函数
1. ToLower(object)
将变量或字符串转换为小写形式
参数
object:待转换的对象;可为字符串或对象变量
2. ToUpper (object)
将变量或字符串转换为大写形式
参数
object:待转换的对象;可为字符串或对象变量
· 内置变量
正则表达式的组可做为内置变量使用。
1. 整个表达式匹配的值可以变量@0引用
2. 表达式第一个组匹配的值可以用变量@1引用,其它以此类推
3. 如果捕获组限定了组名,则只能通过组名的变量引用
如正则表达式:\b(?<GName>word)\b
可以通过变量@GName引用这个组
· 字符转义
\$
转义$字符,使其失去原有意义
“源文本”区
· 导入文本
除在源文本区输入文本外也可以使用指令从外部导入文本,语法如下:
1. 以默认的字符编码导入一个文本
$include:http://www.a.com/test.html$
2. 以utf-8编码方式导入一个文本
$include<utf-8>:http://www.a.com/test.html$
3. 以默认的字符编码导入多个文本(每个文本以换行分隔)
$include:{
http://www.a.com/test.html
d:\dir\test.html
}$
4.以utf-8的字符编码导入多个文本(每个文本以换行分隔)
$include<utf-8>:{
http://www.a.com/test.html
d:\dir\test.html
}$
下载地址:单击下载