文本处理模块 - 随笔分类 - 记录——去繁就简

python sklearn 文本分类

摘要：docs = ['你好喜欢你','ni hao wo xi huan ni','我爱你','你不可以放弃我','你好']docs1 = ['nihao wo xi huan ni','你好']#文本向量化from sklearn.feature_extraction.text i 阅读全文

posted @ 2022-09-22 09:17 记录——去繁就简阅读(131) 评论(0) 推荐(0)

语句相似度

摘要：参考链接：https://zhuanlan.zhihu.com/p/88938220https://blog.csdn.net/yjw123456/article/details/107923566https://blog.csdn.net/betterzl/article/details/1099 阅读全文

posted @ 2022-08-16 16:15 记录——去繁就简阅读(60) 评论(0) 推荐(0)

python 排版模块

摘要：# 科技类文本# 用阿拉伯数字连续编号，不同层次的数字之间加下圆点相隔（即圆点加在数字的右下角），最后数字后面不加标点，如“1”“1.1”“1.1.1”……# 人文类文本# 第一层用“一、”，第二层用“（一）”，第三层用“1．”，第四层用“（1）”，第五层用 “ ① ”class Typesetti 阅读全文

posted @ 2022-08-16 15:10 记录——去繁就简阅读(105) 评论(0) 推荐(0)

python 字符相似度对比

摘要：1，字将字符以逗号，句号为一个段落，在对段落内的字符同一字进行对比 2，词同一词语进行对比 import difflibdef stri_similar(s1,s2): return difflib.SequenceMatcher(None,s1,s2).quick_ratio()data1 = 阅读全文

posted @ 2022-06-26 20:02 记录——去繁就简阅读(679) 评论(0) 推荐(0)

python 字符串分割

摘要：#单字符分割def division(text,strip): # 保留分割符分隔符后换行 print('# 保留分割符分隔符后换行') list = [] str = '' for i in text: if i in strip: str = '%s%s' % (str, i) list.a 阅读全文

posted @ 2022-06-20 16:24 记录——去繁就简阅读(331) 评论(0) 推荐(0)

python 字符串替换

摘要：text = open('text.txt','r',encoding='utf-8').read()old,new = ['(',')',',','.'],['（','）','，','。']def replace(old,new): data = '' for i in text: if i in 阅读全文

posted @ 2022-06-20 16:23 记录——去繁就简阅读(48) 评论(0) 推荐(0)

python 文本相似度

摘要：import difflibdef stri_similar(s1,s2): return difflib.SequenceMatcher(None,s1,s2).quick_ratio()data1 = '你好啊'data2 = '你好'# for i in range(len(data1)):# 阅读全文

posted @ 2022-06-20 16:20 记录——去繁就简阅读(1034) 评论(0) 推荐(0)

记录——去繁就简

随笔分类 - 文本处理模块

公告