NLP - 随笔分类(第12页) - 今夜无风

深度学习与中文短文本分析总结与梳理

摘要：感谢原著，原文出处：https://www.cnblogs.com/wangyaning/p/7853879.html 1.绪论过去几年，深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理，以及中文自然语言处理上，似乎没有太阅读全文

posted @ 2018-12-20 09:33 今夜无风阅读(802) 评论(0) 推荐(0) 编辑

tfidf_CountVectorizer 与 TfidfTransformer 保存和测试

摘要：做nlp的时候，如果用到tf-idf，sklearn中用CountVectorizer与TfidfTransformer两个类，下面对和两个类进行讲解一、训练以及测试 CountVectorizer与TfidfTransformer在处理训练数据的时候都用fit_transform方法，在测试集用阅读全文

posted @ 2018-12-18 19:33 今夜无风阅读(4681) 评论(3) 推荐(1) 编辑

gensim Word2Vec 训练和使用(Model一定要加载到内存中，节省时间！！！)

摘要：训练模型利用gensim.models.Word2Vec(sentences)建立词向量模型该构造函数执行了三个步骤：建立一个空的模型对象，遍历一次语料库建立词典，第二次遍历语料库建立神经网络模型可以通过分别执行model=gensim.models.Word2Vec()，model.build_v 阅读全文

posted @ 2018-12-17 11:29 今夜无风阅读(3169) 评论(0) 推荐(0) 编辑

python 写入日志的问题 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence

摘要：最近，使用python的logging模块，因为这个写入日志写完后就没有管它。在存储日志信息的时候，一直提示： UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte 阅读全文

posted @ 2018-12-15 15:16 今夜无风阅读(1306) 评论(0) 推荐(0) 编辑

Spacy 使用

摘要：# 前提是必须安装： python -m spacy download ennlp = spacy.load('en')text = u"you are best. it is lemmatize test for spacy. I love these books. amines (when pr 阅读全文

posted @ 2018-12-13 19:46 今夜无风阅读(1027) 评论(0) 推荐(0) 编辑

训练词向量

摘要：1 def word_vector_gener(): 2 """ 3 几种不同的方法来生成词向量 4 :return: 5 """ 6 from gensim.models import Word2Vec 7 from gensim.test.utils import common_texts 8 # 1.word2vec ... 阅读全文

posted @ 2018-10-31 19:00 今夜无风阅读(720) 评论(0) 推荐(0) 编辑

NLP常用语料集合

摘要：常用语料资源下面提供一些网上能下载到的中文的好语料，供研究人员学习使用。(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte 阅读全文

posted @ 2018-10-31 18:41 今夜无风阅读(5335) 评论(0) 推荐(0) 编辑

FaceBook开源的词向量计算框架

摘要：fasttext是个好东西，是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec，fasttext可以解决out of vocabulary的问题。fasttext还能够用于有监督的文本分类。更赞的是，facebook提供了200多种语言的预训练模型和阅读全文

posted @ 2018-10-31 14:10 今夜无风阅读(482) 评论(0) 推荐(0) 编辑

一套准确率高且效率高的分词、词性标注工具-thulac

摘要：软件简介 THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库（约阅读全文

posted @ 2018-10-31 11:36 今夜无风阅读(2961) 评论(0) 推荐(0) 编辑

中英文整理最全停用词表

摘要：! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 .数 .日 / // 0 1 2 3 4 5 6 7 8 9 : :// :: ; >> ? @ A Lex [ ... 阅读全文

posted @ 2018-10-11 11:45 今夜无风阅读(3359) 评论(0) 推荐(0) 编辑

numpy的文件存储 .npy .npz 文件

摘要：1）Numpy能够读写磁盘上的文本数据或二进制数据。将数组以二进制格式保存到磁盘np.load和np.save是读写磁盘数组数据的两个主要函数，默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中。 import numpy as npa=np.arange(5)np.save( 阅读全文

posted @ 2018-09-26 10:04 今夜无风阅读(1147) 评论(0) 推荐(0) 编辑

Google词向量word2vec的使用

摘要：1 """ 2 1.在自然语言处理中常常使用预训练的word2vec，这个预训练的词向量可以使用google的GoogleNews-vectors-negative300.bin 3 2.GoogleNews-vectors-negative300.bin是训练好的300维的新闻语料词向量 4 3.本函数的作用就是把一个词转换成词向量，以供我们后期使用。没有在该w... 阅读全文

posted @ 2018-09-26 09:41 今夜无风阅读(6841) 评论(3) 推荐(1) 编辑

NLP-python 自然语言处理01

摘要：1 # -*- coding: utf-8 -*- 2 """ 3 Created on Wed Sep 6 22:21:09 2017 4 5 @author: Administrator 6 """ 7 import nltk 8 from nltk.book import * 9 # 搜搜单词 10 text1.concordance("monstrous") #... 阅读全文

posted @ 2017-09-10 22:01 今夜无风阅读(541) 评论(0) 推荐(0) 编辑

随笔分类 - NLP

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论