上一页 1 ··· 44 45 46 47 48 49 50 51 52 ··· 64 下一页
摘要: 常用语料资源 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte 阅读全文
posted @ 2018-10-31 18:41 今夜无风 阅读(5287) 评论(0) 推荐(0) 编辑
摘要: fasttext是个好东西,是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec,fasttext可以解决out of vocabulary的问题。fasttext还能够用于有监督的文本分类。更赞的是,facebook提供了200多种语言的预训练模型和 阅读全文
posted @ 2018-10-31 14:10 今夜无风 阅读(479) 评论(0) 推荐(0) 编辑
摘要: 软件简介 THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约 阅读全文
posted @ 2018-10-31 11:36 今夜无风 阅读(2872) 评论(0) 推荐(0) 编辑
摘要: 开发产品的过程必不可少的需要记录日志信息,保存我们需要看到的一些数据,执行过程什么的,总之,不仅能够便于分析数据,也可以显得专业一些。那么,日志需要注意的一些信息总结一下。 1.工程下面需要建立一个log文件夹,存放日志信息。dir_path = './data/log/' 2.日志的格式: (1) 阅读全文
posted @ 2018-10-17 16:27 今夜无风 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 最近在做单元测试,不得不说还有好多要学习的地方,经验能力都还是不够的。 1.当开发的模块要集成到产品上,可以通过两种方式实施:(1)可以直接调用开发出的exe,使用该模块输出的分析结果即可;(2)直接使用SDK(头文件+dll) 2.关于版本的使用,本身有一款研发版本供自己内部区别使用,对外发布版本 阅读全文
posted @ 2018-10-17 09:51 今夜无风 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 处理数据时候,需要得到数据所在和行号,使用enumerate时便捷的方法: 阅读全文
posted @ 2018-10-12 10:20 今夜无风 阅读(6184) 评论(0) 推荐(0) 编辑
摘要: ! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 .数 .日 / // 0 1 2 3 4 5 6 7 8 9 : :// :: ; >> ? @ A Lex [ ... 阅读全文
posted @ 2018-10-11 11:45 今夜无风 阅读(3268) 评论(0) 推荐(0) 编辑
摘要: 做自然语言处理的同学,经常会对中文文本进行处理,对于一些特殊字符要去掉,现在把代码收集一下,用的时候也方便 阅读全文
posted @ 2018-10-11 11:16 今夜无风 阅读(1811) 评论(0) 推荐(1) 编辑
摘要: 所谓引用就是为对象起一个别名。例如变量b = &a,b就是a的一个引用。对b的任何操作等同于对a的操作,也就是说,如果你改变了b的值,同时a的值也会发生改变。b就是a的另外一个名字,他们实质是同一个变量。就好比是同一个人,只不过穿着不同的衣服而已。至于引用的用处,给你举一个简单的例子,比如一个交换两 阅读全文
posted @ 2018-09-30 10:21 今夜无风 阅读(1217) 评论(0) 推荐(0) 编辑
摘要: 说白了,super的使用就是要子类要调用父类的方法,我们就用super,那你要有调用的规范,我们明白这个规范就可以了。 在python2和python3中,调用方法不同,注意就是了。Python3.x 和 Python2.x 的一个区别是: Python 3 可以使用直接使用 super().xxx 阅读全文
posted @ 2018-09-29 14:18 今夜无风 阅读(178) 评论(0) 推荐(0) 编辑
上一页 1 ··· 44 45 46 47 48 49 50 51 52 ··· 64 下一页