随笔分类 -  文本处理模块

摘要:docs = ['你好喜欢你','ni hao wo xi huan ni','我 爱 你','你 不 可 以 放 弃 我','你 好']docs1 = ['nihao wo xi huan ni','你 好']#文本向量化from sklearn.feature_extraction.text i 阅读全文
posted @ 2022-09-22 09:17 记录——去繁就简 阅读(106) 评论(0) 推荐(0) 编辑
摘要:参考链接:https://zhuanlan.zhihu.com/p/88938220https://blog.csdn.net/yjw123456/article/details/107923566https://blog.csdn.net/betterzl/article/details/1099 阅读全文
posted @ 2022-08-16 16:15 记录——去繁就简 阅读(30) 评论(0) 推荐(0) 编辑
摘要:# 科技类文本# 用阿拉伯数字连续编号,不同层次的数字之间加下圆点相隔(即圆点加在数字的右下角),最后数字后面不加标点,如“1”“1.1”“1.1.1”……# 人文类文本# 第一层用“一、”,第二层用“(一)”,第三层用“1.”,第四层用“(1)”,第五层用 “ ① ”class Typesetti 阅读全文
posted @ 2022-08-16 15:10 记录——去繁就简 阅读(76) 评论(0) 推荐(0) 编辑
摘要:1,字 将字符以逗号,句号为一个段落,在对段落内的字符同一字进行对比 2,词 同一词语进行对比 import difflibdef stri_similar(s1,s2): return difflib.SequenceMatcher(None,s1,s2).quick_ratio()data1 = 阅读全文
posted @ 2022-06-26 20:02 记录——去繁就简 阅读(644) 评论(0) 推荐(0) 编辑
摘要:#单字符分割def division(text,strip): # 保留分割符 分隔符后换行 print('# 保留分割符 分隔符后换行') list = [] str = '' for i in text: if i in strip: str = '%s%s' % (str, i) list.a 阅读全文
posted @ 2022-06-20 16:24 记录——去繁就简 阅读(308) 评论(0) 推荐(0) 编辑
摘要:text = open('text.txt','r',encoding='utf-8').read()old,new = ['(',')',',','.'],['(',')',',','。']def replace(old,new): data = '' for i in text: if i in 阅读全文
posted @ 2022-06-20 16:23 记录——去繁就简 阅读(37) 评论(0) 推荐(0) 编辑
摘要:import difflibdef stri_similar(s1,s2): return difflib.SequenceMatcher(None,s1,s2).quick_ratio()data1 = '你好啊'data2 = '你好'# for i in range(len(data1)):# 阅读全文
posted @ 2022-06-20 16:20 记录——去繁就简 阅读(993) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示