随笔 - 576  文章 - 0  评论 - 62  阅读 - 219万

删除相邻重复的内容

1、思路:用正则表达式匹配,使用反向引用,替换。查找(.+?)\1 替换为 $1
    (.+)\1 为什么不好?因为量词优先,+会尽可能地吃,然后又要一个一个吐出来,效率太差,使用(.+?)\1 取消量词优先,尽量少吃。
    (.*?)\1 为什么不好,因为.* 可以匹配没有字符的情况,.+ 要求至少有一个字符,既然是删除相邻重复的内容,当然要求至少有一个字符。

2、删除相邻重复的行,可以转化为删除相邻重复的内容。只不过中间有一个换行符,如下:查找(.+?)(\r\n)\1 替换为 $1。
   注意:这里千万不能使用(.*?)(\r\n)\1,会导致没有了换行符,为什么?
   因为 (.*?)能匹配空,紧接着换行,反向引用空,替换为空,导致换行符没有了。

3、注意:上面只是删除相邻两个重复的内容,对于多个连续重复的内容,比如:aaaa,怎么办?

    查找 (.+?)(\1)+ 替换为 $1,注意这里不能使用(.+)(\1)+,不是效率的问题,而是.+ 会多吃,导致.+ 匹配aa,最后结果为aa。

    对于多个连续重复的行,查找 (.+?)(\r\n\1)+ 替换为 $1

posted on   Andy Niu  阅读(367)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示