Java中的爬虫
1.java键盘录入2.JAVA运算符详解3.流程控制语句 ——if语句4.JAVA中switch语句格式5.JAVA中的for循环和while循环详解6.JAVA随机数的使用7.JAVA中的内存分配8.JAVA方法详解9.JAVA中的数组详解10.JAVA中字符串的常用方法11.JAVA中的两个容器StringBuilder和StringJoiner概述12.JAVA中ArrayList集合详解13.JAVA中的static关键字14.JAVA——继承详解15.JAVA 多态详解16.JAVA 多态详解17.Java中的包18.Java中的final,权限修饰符与抽象类19.JAVA中的接口详解20.JAVA的内部类21.java中的常用类及常用方法22.正则表达式
23.Java中的爬虫
24.JAVA——时间类25.JAVA——包装类及Integer的成员方法26.算法总结27.Arrays ——操作数组的工具类28.Lambda表达式29.集合体系结构30.JAVA之树的详解31.Set系列集合32.java——双列集合33.stream流的思想34.JAVA入门——方法引用35.JAVA——异常36.File --JAVApattern :表示正则表达式
Matcher:文本匹配器,作用按照正则表达式的规则去读取字符串,从头开始读取
步骤:
-
获取正则表达式的对象
Pattern p=Pattern.compile(" 正则表达式");
-
获取文本匹配器的对象
String str="文本";
Matcher m=p.matcher(str);
p:规则,str:大串,m;文本匹配器的对象 m要在str中找符合p规则的小串
-
拿着文本匹配器从头开始读取,寻找是否满足规则的字串,如果没有,方法返回false。
如果有,返回true,在底层记录字串的起始索引和结束索引。 boolean b=m.find();
-
方法底层会根据find方法记录的索引进行字符串的截取。
SubString(起始索引,结束索引);包头不包尾
会把截取的小串进行返回
String sl=m.group();
System.out.println(sl);打印
循环方法
-
获取正则表达式的对象
Pattern p=pattern.compile("正则表达式");
-
获取文本匹配器的对象
拿着m去读取str,找符合p规则的字串
Matcher m=p.matcher(str) str:文本
-
利用循环获取
while(m.find()){
String s=m.group();
System.out.println(s);
}
m.find()为false时,循环结束
-
爬取模式
贪婪爬取:在爬取中尽可能多的获取数据
非贪婪爬取:在爬取中尽可能少的获取数据
例:abbbbbbb
贪婪爬取:ab+ --> abbbbbbb
非贪婪爬取:ab+? --> ab
在数量词+*后面加上问号,就是非贪婪爬取
方法
方法名 | 说明 |
---|---|
public String [] matches(String regex) | 判断字符串是否满足正则表达式的规则 |
public String replaceAll(String regex,String newStr) | 按正则表达式的规则替换 |
public String split(String regex) | 按照正则表达式的规则切割字符串 |
捕获分组和非捕获分组
捕获分组(默认):
后续还要用本组的数据
正则外部使用:$ 组号
非捕获分组:
分组之后不需要再用本组数据,仅仅是把数据括起来,不占组号
注意:组号从1开始,连续不间断,以左括号为基准,最左边是第一组
符号 | 含义 | 举例 |
---|---|---|
(?:正则) | 获取所有 | java(?:8|11|17) |
(?=正则) | 获取前面部分 | java(?=8|11|17) |
(?!正则) | 获取不是指定内容的前面部分 | java(?!8|11|17) |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?