摘要: 原文 http://www.gowhich.com/blog/147 主题 中文分词 Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试 阅读全文
posted @ 2017-01-11 22:46 CQ_LQJ 阅读(1295) 评论(0) 推荐(1) 编辑
摘要: 前言:前两篇转载别人的精彩文章,自己也总结一下吧! 最近又开始用起py,是为什么呢? 自己要做一个文本相似度匹配程序,大致思路就是两个文档,一个是试题,一个是材料,我将试题按每题分割出来,再将每题的内容与材料中进行文本相似度匹配。 所以先首先要做的是将试题把每道题作为一个字符串切割开来,存放到字典中 阅读全文
posted @ 2017-01-11 21:05 CQ_LQJ 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 注:最近在研究文本处理,需要用到正则切割文本,所以收索到了这篇文章,很有用,谢谢原作者。 原址:http://blog.sciencenet.cn/blog-314114-775285.html 关于python中re模块split方法的使用 已有 3094 次阅读 2014-3-12 11:30 阅读全文
posted @ 2017-01-11 20:44 CQ_LQJ 阅读(5230) 评论(0) 推荐(0) 编辑
摘要: [注]虽是转载,但会在原文上有些修改! open/文件操作f=open('/tmp/hello','w')#open(路径+文件名,读写模式)#读写模式:r只读,r+读写,w新建(会覆盖原有文件),a追加,b二进制文件.常用模式如:'rb','wb','r+b'等等 读写模式的类型有: rU 或 U 阅读全文
posted @ 2017-01-11 19:38 CQ_LQJ 阅读(540) 评论(0) 推荐(0) 编辑