随笔分类 -  NLP

上一页 1 ··· 8 9 10 11 12
摘要:感谢原著,原文出处:https://www.cnblogs.com/wangyaning/p/7853879.html 1.绪论 过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,以及中文自然语言处理上,似乎没有太 阅读全文
posted @ 2018-12-20 09:33 今夜无风 阅读(802) 评论(0) 推荐(0) 编辑
摘要:做nlp的时候,如果用到tf-idf,sklearn中用CountVectorizer与TfidfTransformer两个类,下面对和两个类进行讲解 一、训练以及测试 CountVectorizer与TfidfTransformer在处理训练数据的时候都用fit_transform方法,在测试集用 阅读全文
posted @ 2018-12-18 19:33 今夜无风 阅读(4681) 评论(3) 推荐(1) 编辑
摘要:训练模型利用gensim.models.Word2Vec(sentences)建立词向量模型该构造函数执行了三个步骤:建立一个空的模型对象,遍历一次语料库建立词典,第二次遍历语料库建立神经网络模型可以通过分别执行model=gensim.models.Word2Vec(),model.build_v 阅读全文
posted @ 2018-12-17 11:29 今夜无风 阅读(3169) 评论(0) 推荐(0) 编辑
摘要:最近,使用python的logging模块,因为这个写入日志写完后就没有管它。在存储日志信息的时候,一直提示: UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte 阅读全文
posted @ 2018-12-15 15:16 今夜无风 阅读(1306) 评论(0) 推荐(0) 编辑
摘要:# 前提是必须安装: python -m spacy download ennlp = spacy.load('en')text = u"you are best. it is lemmatize test for spacy. I love these books. amines (when pr 阅读全文
posted @ 2018-12-13 19:46 今夜无风 阅读(1027) 评论(0) 推荐(0) 编辑
摘要:1 def word_vector_gener(): 2 """ 3 几种不同的方法来生成词向量 4 :return: 5 """ 6 from gensim.models import Word2Vec 7 from gensim.test.utils import common_texts 8 # 1.word2vec ... 阅读全文
posted @ 2018-10-31 19:00 今夜无风 阅读(720) 评论(0) 推荐(0) 编辑
摘要:常用语料资源 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte 阅读全文
posted @ 2018-10-31 18:41 今夜无风 阅读(5335) 评论(0) 推荐(0) 编辑
摘要:fasttext是个好东西,是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec,fasttext可以解决out of vocabulary的问题。fasttext还能够用于有监督的文本分类。更赞的是,facebook提供了200多种语言的预训练模型和 阅读全文
posted @ 2018-10-31 14:10 今夜无风 阅读(482) 评论(0) 推荐(0) 编辑
摘要:软件简介 THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约 阅读全文
posted @ 2018-10-31 11:36 今夜无风 阅读(2961) 评论(0) 推荐(0) 编辑
摘要:! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 .数 .日 / // 0 1 2 3 4 5 6 7 8 9 : :// :: ; >> ? @ A Lex [ ... 阅读全文
posted @ 2018-10-11 11:45 今夜无风 阅读(3359) 评论(0) 推荐(0) 编辑
摘要:1)Numpy能够读写磁盘上的文本数据或二进制数据。将数组以二进制格式保存到磁盘np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中。 import numpy as npa=np.arange(5)np.save( 阅读全文
posted @ 2018-09-26 10:04 今夜无风 阅读(1147) 评论(0) 推荐(0) 编辑
摘要:1 """ 2 1.在自然语言处理中常常使用预训练的word2vec,这个预训练的词向量可以使用google的GoogleNews-vectors-negative300.bin 3 2.GoogleNews-vectors-negative300.bin是训练好的300维的新闻语料词向量 4 3.本函数的作用就是把一个词转换成词向量,以供我们后期使用。没有在该w... 阅读全文
posted @ 2018-09-26 09:41 今夜无风 阅读(6841) 评论(3) 推荐(1) 编辑
摘要:1 # -*- coding: utf-8 -*- 2 """ 3 Created on Wed Sep 6 22:21:09 2017 4 5 @author: Administrator 6 """ 7 import nltk 8 from nltk.book import * 9 # 搜搜单词 10 text1.concordance("monstrous") #... 阅读全文
posted @ 2017-09-10 22:01 今夜无风 阅读(541) 评论(0) 推荐(0) 编辑

上一页 1 ··· 8 9 10 11 12
点击右上角即可分享
微信分享提示