2018年6月2日

摘要: 朴素贝叶斯 1. 引言 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 2. 贝叶斯公式 贝叶斯公式就一行: P(Y|X)=P(X|Y)P(Y)P(X) 阅读全文
posted @ 2018-06-02 09:49 Josie_chen 阅读(230) 评论(0) 推荐(0) 编辑

2018年6月1日

摘要: jieba中文处理 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。这才是主要需要处理的是基于中文的。jieba可以实现粗细两种粒度的分词处理。一般选择的是粗粒 阅读全文
posted @ 2018-06-01 11:10 Josie_chen 阅读(970) 评论(0) 推荐(0) 编辑
摘要: Python正则表达式 by 寒小阳(hanxiaoyang.ml@gmail.com) 正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的 阅读全文
posted @ 2018-06-01 11:09 Josie_chen 阅读(482) 评论(0) 推荐(0) 编辑
摘要: Jupyter Notebook string_operation 字符串操作 我们一起回归一下python字符串的相关操作,这是非常基础的知识,但却是使用频度非常高的一些功能。 去空格及特殊符号 In [3]: s = ' hello, world!' print s.strip() print 阅读全文
posted @ 2018-06-01 11:07 Josie_chen 阅读(196) 评论(0) 推荐(0) 编辑

2018年5月28日

摘要: 用每日新闻预测金融市场变化(进阶版) Kaggle竞赛:https://www.kaggle.com/aaron7sun/stocknews 这篇教程里,我们会学习如何更有逼格地使用word2vec 用每日新闻预测金融市场变化(进阶版) Kaggle竞赛:https://www.kaggle.com 阅读全文
posted @ 2018-05-28 11:11 Josie_chen 阅读(1017) 评论(0) 推荐(1) 编辑
摘要: 用每日新闻预测金融市场变化(进阶版) 这篇教程里,我们会使用FastText来做分类 用每日新闻预测金融市场变化(进阶版) 这篇教程里,我们会使用FastText来做分类 用每日新闻预测金融市场变化(进阶版) 这篇教程里,我们会使用FastText来做分类 In [53]: import panda 阅读全文
posted @ 2018-05-28 11:11 Josie_chen 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 不用one-hot来表示输入x,是因为想要用word2vec 将每个单词得到vector,将每个vector拼接成一个sequence。[[w1],[w2],[w3]] 用RNN做文本生成 举个小小的例子,来看看LSTM是怎么玩的 我们这里不再用char级别,我们用word级别来做。 第一步,一样, 阅读全文
posted @ 2018-05-28 11:09 Josie_chen 阅读(1071) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 用RNN做文本生成 举个小小的例子,来看看LSTM是怎么玩的 我们这里用温斯顿丘吉尔的人物传记作为我们的学习语料。 (各种中文语料可以自行网上查找, 英文的小说语料可以从古登堡计划网站下载txt平文本:https://www.gutenberg.org/wiki/Category:Bo 阅读全文
posted @ 2018-05-28 09:48 Josie_chen 阅读(1109) 评论(0) 推荐(0) 编辑

2018年5月27日

摘要: 本文简述了以下内容: 神经概率语言模型NPLM,训练语言模型并同时得到词表示 word2vec:CBOW / Skip-gram,直接以得到词表示为目标的模型 (一)原始CBOW(Continuous Bag-of-Words)模型 (二)原始Skip-gram模型 (三)word analogy 阅读全文
posted @ 2018-05-27 16:19 Josie_chen 阅读(377) 评论(0) 推荐(0) 编辑
摘要: word2vec训练中文模型 1.准备数据与预处理 首先需要一份比较大的中文语料数据,可以考虑中文的维基百科(也可以试试搜狗的新闻语料库)。中文维基百科的打包文件地址为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-art 阅读全文
posted @ 2018-05-27 15:50 Josie_chen 阅读(2838) 评论(0) 推荐(0) 编辑

导航