Josie_chen

02-NLP-02-朴素贝叶斯

摘要：朴素贝叶斯 1. 引言贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。 2. 贝叶斯公式贝叶斯公式就一行： P(Y|X)=P(X|Y)P(Y)P(X) 阅读全文

posted @ 2018-06-02 09:49 Josie_chen 阅读(230) 评论(0) 推荐(0) 编辑

02-NLP-01-jieba中文处理

摘要： jieba中文处理和拉丁语系不同，亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候，大部分情况下，词汇是我们对句子和文章理解的基础，因此需要一个工具去把完整的文本中分解成粒度更细的词。这才是主要需要处理的是基于中文的。jieba可以实现粗细两种粒度的分词处理。一般选择的是粗粒阅读全文

posted @ 2018-06-01 11:10 Josie_chen 阅读(970) 评论(0) 推荐(0) 编辑

02-NLP-01-python正则表达式

摘要： Python正则表达式 by 寒小阳(hanxiaoyang.ml@gmail.com) 正则表达式是处理字符串的强大工具，拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时，有些情况用str自带的函数(比如find, in)可能可以完成，有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的阅读全文

posted @ 2018-06-01 11:09 Josie_chen 阅读(482) 评论(0) 推荐(0) 编辑

02-NLP-01-字符串处理

摘要： Jupyter Notebook string_operation 字符串操作我们一起回归一下python字符串的相关操作，这是非常基础的知识，但却是使用频度非常高的一些功能。去空格及特殊符号 In [3]: s = ' hello, world!' print s.strip() print 阅读全文

posted @ 2018-06-01 11:07 Josie_chen 阅读(196) 评论(0) 推荐(0) 编辑

01-NLP-04-03 利用CNN进行文本分类预测

摘要：用每日新闻预测金融市场变化（进阶版） Kaggle竞赛：https://www.kaggle.com/aaron7sun/stocknews 这篇教程里，我们会学习如何更有逼格地使用word2vec 用每日新闻预测金融市场变化（进阶版） Kaggle竞赛：https://www.kaggle.com 阅读全文

posted @ 2018-05-28 11:11 Josie_chen 阅读(1017) 评论(0) 推荐(1) 编辑

01-NLP-04-04

摘要：用每日新闻预测金融市场变化（进阶版）这篇教程里，我们会使用FastText来做分类用每日新闻预测金融市场变化（进阶版）这篇教程里，我们会使用FastText来做分类用每日新闻预测金融市场变化（进阶版）这篇教程里，我们会使用FastText来做分类 In [53]: import panda 阅读全文

posted @ 2018-05-28 11:11 Josie_chen 阅读(261) 评论(0) 推荐(0) 编辑

01-NLP-04-02用RNN做文本生成RNN

摘要：不用one-hot来表示输入x，是因为想要用word2vec 将每个单词得到vector，将每个vector拼接成一个sequence。[[w1],[w2],[w3]] 用RNN做文本生成举个小小的例子，来看看LSTM是怎么玩的我们这里不再用char级别，我们用word级别来做。第一步，一样，阅读全文

posted @ 2018-05-28 11:09 Josie_chen 阅读(1071) 评论(0) 推荐(0) 编辑

01-NLP-04-01用RNN做文本生成

摘要：恢复内容开始用RNN做文本生成举个小小的例子，来看看LSTM是怎么玩的我们这里用温斯顿丘吉尔的人物传记作为我们的学习语料。 (各种中文语料可以自行网上查找，英文的小说语料可以从古登堡计划网站下载txt平文本：https://www.gutenberg.org/wiki/Category:Bo 阅读全文

posted @ 2018-05-28 09:48 Josie_chen 阅读(1109) 评论(0) 推荐(0) 编辑

01-NLP-03-CBOW

摘要：本文简述了以下内容：神经概率语言模型NPLM，训练语言模型并同时得到词表示 word2vec：CBOW / Skip-gram，直接以得到词表示为目标的模型（一）原始CBOW(Continuous Bag-of-Words)模型（二）原始Skip-gram模型（三）word analogy 阅读全文

posted @ 2018-05-27 16:19 Josie_chen 阅读(377) 评论(0) 推荐(0) 编辑

01-NLP-02-gensim中文处理案例

摘要： word2vec训练中文模型 1.准备数据与预处理首先需要一份比较大的中文语料数据，可以考虑中文的维基百科（也可以试试搜狗的新闻语料库）。中文维基百科的打包文件地址为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-art 阅读全文

posted @ 2018-05-27 15:50 Josie_chen 阅读(2838) 评论(0) 推荐(0) 编辑

导航

公告