Java中的爬虫

合集 - Java入门(36)

1.java键盘录入2023-04-23 2.JAVA运算符详解2023-04-24 3.流程控制语句 ——if语句2023-04-25 4.JAVA中switch语句格式2023-04-26 5.JAVA中的for循环和while循环详解2023-04-28 6.JAVA随机数的使用2023-04-29 7.JAVA中的内存分配2023-05-02 8.JAVA方法详解2023-05-03 9.JAVA中的数组详解2023-05-03 10.JAVA中字符串的常用方法2023-05-04 11.JAVA中的两个容器StringBuilder和StringJoiner概述2023-05-05 12.JAVA中ArrayList集合详解2023-05-06 13.JAVA中的static关键字2023-05-08 14.JAVA——继承详解2023-05-14 15.JAVA 多态详解2023-05-15 16.JAVA 多态详解2023-05-16 17.Java中的包2023-05-20 18.Java中的final,权限修饰符与抽象类2023-05-20 19.JAVA中的接口详解2023-05-21 20.JAVA的内部类2023-05-27 21.java中的常用类及常用方法2023-05-28 22.正则表达式2023-05-29

23.Java中的爬虫2023-06-03

24.JAVA——时间类2023-06-07 25.JAVA——包装类及Integer的成员方法2023-06-10 26.算法总结2023-06-10 27.Arrays ——操作数组的工具类2023-06-12 28.Lambda表达式2023-06-16 29.集合体系结构2023-06-18 30.JAVA之树的详解2023-06-21 31.Set系列集合2023-06-22 32.java——双列集合2023-08-29 33.stream流的思想2023-10-02 34.JAVA入门——方法引用2023-10-04 35.JAVA——异常2023-10-06 36.File --JAVA2023-10-31

爬虫

pattern :表示正则表达式

Matcher:文本匹配器，作用按照正则表达式的规则去读取字符串，从头开始读取

步骤：

获取正则表达式的对象

Pattern p=Pattern.compile(" 正则表达式");
获取文本匹配器的对象

String str="文本";

Matcher m=p.matcher(str);

p：规则，str：大串，m；文本匹配器的对象 m要在str中找符合p规则的小串
拿着文本匹配器从头开始读取，寻找是否满足规则的字串，如果没有，方法返回false。

如果有，返回true，在底层记录字串的起始索引和结束索引。 boolean b=m.find();
方法底层会根据find方法记录的索引进行字符串的截取。

SubString(起始索引，结束索引);包头不包尾

会把截取的小串进行返回

String sl=m.group();

System.out.println(sl);打印

循环方法

获取正则表达式的对象

Pattern p=pattern.compile("正则表达式")；
获取文本匹配器的对象

拿着m去读取str，找符合p规则的字串

Matcher m=p.matcher(str) str:文本
1. 利用循环获取
while(m.find()){

String s=m.group();

System.out.println(s);

}

m.find()为false时，循环结束

爬取模式

贪婪爬取：在爬取中尽可能多的获取数据

非贪婪爬取：在爬取中尽可能少的获取数据

例：abbbbbbb

贪婪爬取：ab+ --> abbbbbbb

非贪婪爬取：ab+？ --> ab

在数量词+*后面加上问号，就是非贪婪爬取

方法

方法名	说明
public String [] matches(String regex)	判断字符串是否满足正则表达式的规则
public String replaceAll(String regex,String newStr)	按正则表达式的规则替换
public String split(String regex)	按照正则表达式的规则切割字符串

捕获分组和非捕获分组

捕获分组（默认）：

后续还要用本组的数据

正则内部使用： \ \组号

正则外部使用：$ 组号

非捕获分组：

分组之后不需要再用本组数据，仅仅是把数据括起来，不占组号

注意：组号从1开始，连续不间断，以左括号为基准，最左边是第一组

符号	含义	举例
(?:正则)	获取所有	java(?:8\|11\|17)
(?=正则)	获取前面部分	java(?=8\|11\|17)
(?!正则)	获取不是指定内容的前面部分	java(?!8\|11\|17)

posted @ 2023-06-03 09:24 java贼溜阅读(27) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· JAVA——包装类及Integer的成员方法

· 集合体系结构

· 正则表达式（爬虫）

· 第七周进度报告

· 正则表达式(下)

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称： java贼溜
园龄： 2年6个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

随笔档案

文章分类

java学习(4)

longlonglong777