摘要: 新建一个文件夹命名为yuliao,把所有txt文件放进去就ok啦!注意路径中‘/’,windows下路径不是这样。 阅读全文
posted @ 2017-05-18 19:22 右介 阅读(33915) 评论(2) 推荐(1) 编辑
摘要: 把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是jieba-0.38),把自己的自定义词典(选用,目的是为了分出原始词库中没有的词以及优先分出一些词), 阅读全文
posted @ 2017-05-18 19:07 右介 阅读(68398) 评论(13) 推荐(3) 编辑
摘要: #coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') from pymongo import MongoClient #建立MongoDB数据库连接 client = MongoClient('IP', 27017) #用户验证 db = client.库名 db.authenticate("账号", "密... 阅读全文
posted @ 2017-05-18 18:15 右介 阅读(7992) 评论(0) 推荐(0) 编辑
摘要: 2017-04-26 语料数据入库时有个小需求,需要用一个字段存储语料的语种,偶然发现langid可以实现这一功能,再次感叹python的好用! 阅读全文
posted @ 2017-05-18 13:40 右介 阅读(5067) 评论(0) 推荐(0) 编辑