用正则表达式【regexp】进行高级搜索数据

正则表达式介绍

正则表达式是用来匹配文本的特殊字符集合,如果你想从一个文本中提取电话号码而已使用正则表达式,如果你需要查找名字中包含数字的所有文件可以使用正则,如果你你要在文本块中找到所有重复的单词,可以使用正则。

可以把正则【regexp】,直接理解为【去匹配】

基本字符匹配

我们用来检索列prod_name包含文本luzhaosahn的所有行

select prod_name
from products
where prod_name regexp 'luzhaoshan'
order by prod_name;


查询结果是:
prod_name
jetback    luzhaoshan

为什么要费力的使用正则表达式呢?因为在高级查询中用处大大的好
例如:

select prod_name
from products
where prod_name regexp '.000'
order by prod_name;

输出结果为:
prod_name

jetbaas    2000
hsahgj     8000
jaas    2000
ahgj     8000
jaas    2000
ahgj     8000

这里使用了正则表达式.000,是正则表达式语言中一个特殊的字符。它表示匹配任意一个字符,因此,2000和8000都匹配并且返回数据。
----当然这个也是可以使用like和通配符进行来完成的,如下参考:
select prod_name
from products
where prod_name like '%000'
order by prod_name;


对比来看:
select prod_name
from products
where prod_name regexp '.000'
order by prod_name;


----regexp 在列值内进行匹配
----like 匹配的是整个列
下面让你们看一个神奇的地方!!!!!!!!!!!!
select prod_name
from products
where prod_name like '000'
order by prod_name;


对比来看:
select prod_name
from products
where prod_name regexp '.000'
order by prod_name;

#### 如果执行上述两条语句,会发现第一条是不返回数据,而第二条语句返回一行,为什么??
因为,LIKE匹配整个列,如果被匹配的文本在列值内部中,并非是单独的列,LIKE 将不会找到它,相应的行也不会返回,【除非使用通配符获取数据】。


而REGEXP正好是在列值内部进行匹配,如果被匹配的文本在裂殖内部中,REGEXP就会找到它,相应的行也会返回。【这是一个非常重要的差别!!!】

REGEXP如果想要实现LIKE的功能,需要和^和$符合结合使用。

进行OR匹配,在正则表达式中使用 | 来表示OR的操作


select prod_name 
from products
where prod_name REGEXP  '1000|2000'
order by prod_name;

输出结果为:
prod_name

jetpack    1000
jetmaoc    2000

语句中使用正则表达式1000|2000。 | 为正则表达式的or操作符。它表示匹配其中之一。因此1000和2000都匹配并且返回。

使用 | 从功能上类似于select语句中使用的or语句,多个or条件可以并入单个正则表达式。

----两个以上的OR条件, 可以给出两个以上的OR条件。例如,
‘1000 | 2000 | 3000’ 将匹配1000或者2000或者3000。

匹配指定字符,通过【】字符来完成

例如:


select prod_name
from products
where prod_name regexp '[123]ton'
order by prod_name;

输出结果是:
prod_name
1 ton 
2 ton

这里使用正则表达式[123]ton,[123]定义一组字符,它的意思是匹配1 或者匹配2 或者匹配3,因此 1ton 和 2 ton 都匹配并且返回数据,(没有3ton)

由此可知,[]是另一种形式的OR语句,事实上,正则表达式[123]ton为[1|2|3]ton
的缩写,也可以使用后者。结果都是一样的如下所示:
select prod_name
from products
where prod_name regexp '[1|2|3]ton'
order by prod_name;

输出结果是:
prod_name
1 ton 
2 ton


[0-9]匹配任意0-9的字符
[a-z]匹配任意a-z的任意字母
例子如下:
select prod_name
from products
where prod_name regexp '[1-5]ton'
order by prod_name;

输出结果为:
prod_name

1 ton anvil
2 ton anvil
3 ton anvil
.5 ton snkil

这里使用正则表达式[1-5]ton。定义了一个范围,这个表达式意思是匹配到1-5,因此返回3个匹配行。 由于 5 ton 匹配,所以返回    .5ton

如果你想找出一个数或者以小数点开始的数,开始的所有产品,怎么办,简单搜索[0-9\.]不行的,因为它在文本中任意位置查找匹配,解决办法就是使用^定位符。


^     文本的开始
$     文本的结束

select prod_name
from products
where prod_name regexp '^[0-9]\\.'
order by  prod_name

输出结果为:
prod_name

1 ton anvil
2 ton anvil
3 ton anvil
.5 ton snkil

^ 匹配串的开始。
^的双重用途,
第一个是在集合中用来否定该集合。
第二个是用来指示串的开始处。


简单的正则表达式测试:
可以在不适用数据库表的情况下用select来测试正则表达式,regexp检查总是返回0
0是没有匹配,1是匹配,可以使用带文本串的regexp来测试表达式,并实验他们
相应的测试如下:
select ‘hello’ regexp  ‘[0-9]’;
这个例子显然将返回结果0,因为文本hello中没有数字。



posted @ 2019-09-30 19:45  大海一个人听  阅读(991)  评论(0编辑  收藏  举报