正则表达式 | 使用零宽断言去除不想捕获的文本
(?:.(?<!\d))+?(?=\s+\d+)
使用该表达式去除目录页数,捕获文本内容
[^\r\n0-9]+?(?=\s+\d+)
或使用该表达式可去除换行和目录页数,捕获文本内容
(?<=">).+?(?=</p>)
使用该表达式提取百度文库网页文件中文本内容
有关零宽断言
代码 | 说明 | 举例 |
(?=exp) | 匹配exp前面的位置 | \w+(?=ing) 后面是ing |
(?<=exp) | 匹配exp后面的位置 | (?<=re)\w+ 前面是re |
(?!exp) | 匹配后面跟的不是exp的位置 | \w+?(?!\d) 后面不含数字的文本 |
(?<!exp) | 匹配前面是跟的不是exp的位置 | (?<!\d)\w+? 前面不含数字的文本 |
零宽断言断言的是一个位置,像\b((?!abc)\w)+\b这样的表达式,意思是匹配不包含连续字符串abc的文本。
附上自己学习正则的文章原文链接 https://deerchao.cn/tutorials/regex/regex.htm
本文来自博客园,作者:康舒服冰红茶,转载请注明原文链接:https://www.cnblogs.com/pong137/p/13153047.html
欢迎转载,但请注明「作者」和「原文地址」。转载请在文中保留此段,感谢您对作者版权的尊重。如需商业转载或刊登,请联系作者获得授权。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?