正则表达式(下)
正则表达式
作用二:在一段文本中查找满足要求的内容
本地爬虫和网络爬虫
这一段我仅仅使用案列进行演示
在此之前我们需要用到两个类:
pattern,他是属于java.util.regex.Pattern包下的类
用于定义正则表达式的典型的调用顺序是
Matcher,文本匹配器,也是属于java.util.regex.Matcher包下的类,按照正则表达式的规则去读取字符串,从头开始读取。
话不多说开撸
-
本地爬虫
-
网络爬虫
这段代码不建议练习,因为网页编码问题
题目练习
条件爬取
贪婪爬取和非贪婪爬取
abbbbbbbbbbbbbbbbbb
贪婪爬取:ab+
非贪婪爬取:ab
Java中,默认的是贪婪爬取,如果我们在数量词+*后面加上问号,就是非贪婪爬取
识别正则的方法两个方法
方法名 说明
public String[] matches(String regex) 判断字符串是否满足正则表达式的规则
public String replaceAll(String regex,String newStr) 按照正则表达式的规则替换
public String[] split(String regex) 按照正则表达hi的规则切割字符串
演示
捕获和非捕获
分组
分组就是一个小括号,每组是有组号的,也就是序号
-
规则1:从1开始,连续不间断
-
规则2:以左括号为基准,最左边是第一组,其次是第二组,依次类推
(\\d+)(\\d+)(\\d)
(\\d+(\\d+))(\\d)
小结
-
组号的特点:即上文规则
-
捕获分组:
如果后续还要使用本组的数据
正则内部使用:\\组号
正则外部是同:$组号
-
非捕获分组
分组之后不需要再使用本组数据,仅仅是把数据括起来
符号 含义 举例
(?:正则) 获取所有 Java(?:8|11|17)
(?=正则) 获取前面部分 Java(?=8|11|17)
(?!正则) 获取不是指定内容的前面部分 Java(?!8|11|17)
__EOF__

本文链接:https://www.cnblogs.com/qisui/p/16873622.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 一文读懂知识蒸馏
· 终于写完轮子一部分:tcp代理 了,记录一下