#单字符分割
def division(text,strip):
# 保留分割符 分隔符后换行
print('# 保留分割符 分隔符后换行')
list = []
str = ''
for i in text:
if i in strip:
str = '%s%s' % (str, i)
list.append(str)
str = ''
else:
str = '%s%s'%(str,i)
if str != '':
list.append(str)
return list
def independent(text,strip):
# 保留分割符 分隔符单独
print('# 保留分割符 分隔符单独')
list = []
str = ''
for i in text:
if i == strip:
if str != '':
list.append(str)
str = ''
str = '%s%s' % (str, i)
list.append(str)
str = ''
else:
str = '%s%s'%(str,i)
if str != '':
list.append(str)
return list
def independent1(text,strip):
# 不保留分隔符 分隔符处换行
print('# 不保留分隔符 分隔符处换行')
list = []
str = ''
for i in text:
if i == strip:
if str != '':
list.append(str)
str = ''
else:
str = '%s%s'%(str,i)
if str != '':
list.append(str)
return list
# 保留分割符 分隔符后换行 分隔符单独
# 不保留分隔符 分隔符处换行
text = open('text.txt','r',encoding='utf-8').read()
strip = '\n'
d = independent1(text,strip)
print(len(d))
for i in d:
# print(i)
if '工程概况' in i[0:8]:
print(i)
# 功能:分割段落
# 缺点:必须是第一个字符开始匹配
class division():
def __init__(self,text):
self.text = text
# 多字符分割
def cutting(self,i, t):
data = ['章', '节']
if t == '第' and self.text[i + 1].isnumeric() == True and self.text[i + 2] in data:
print('满足', t, self.text[i + 1], self.text[i + 2])
return True
def start(self):
str = ''
data = []
text = ''.join(self.text)
for i, t in enumerate(text):
if self.cutting(i, t) == True:
data.append(str)
str = ''
str = '%s' % t
else:
str = '%s%s' % (str, t)
data.append(str)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?