随笔分类 - 文本处理模块
摘要:docs = ['你好喜欢你','ni hao wo xi huan ni','我 爱 你','你 不 可 以 放 弃 我','你 好']docs1 = ['nihao wo xi huan ni','你 好']#文本向量化from sklearn.feature_extraction.text i
阅读全文
摘要:参考链接:https://zhuanlan.zhihu.com/p/88938220https://blog.csdn.net/yjw123456/article/details/107923566https://blog.csdn.net/betterzl/article/details/1099
阅读全文
摘要:# 科技类文本# 用阿拉伯数字连续编号,不同层次的数字之间加下圆点相隔(即圆点加在数字的右下角),最后数字后面不加标点,如“1”“1.1”“1.1.1”……# 人文类文本# 第一层用“一、”,第二层用“(一)”,第三层用“1.”,第四层用“(1)”,第五层用 “ ① ”class Typesetti
阅读全文
摘要:1,字 将字符以逗号,句号为一个段落,在对段落内的字符同一字进行对比 2,词 同一词语进行对比 import difflibdef stri_similar(s1,s2): return difflib.SequenceMatcher(None,s1,s2).quick_ratio()data1 =
阅读全文
摘要:#单字符分割def division(text,strip): # 保留分割符 分隔符后换行 print('# 保留分割符 分隔符后换行') list = [] str = '' for i in text: if i in strip: str = '%s%s' % (str, i) list.a
阅读全文
摘要:text = open('text.txt','r',encoding='utf-8').read()old,new = ['(',')',',','.'],['(',')',',','。']def replace(old,new): data = '' for i in text: if i in
阅读全文
摘要:import difflibdef stri_similar(s1,s2): return difflib.SequenceMatcher(None,s1,s2).quick_ratio()data1 = '你好啊'data2 = '你好'# for i in range(len(data1)):#
阅读全文