会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
大大黄小菜鸟
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2019年12月5日
N-gram模型
摘要: N-gram模型 (一)引言 N-gram是自然语言处理中常见一种基于统计的语言模型。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,在所给语句中对所有的gram出现的频数进行统计。再根据整体语料库中每个gram出现的频数进
阅读全文
posted @ 2019-12-05 17:32 大大黄小菜鸟
阅读(3237)
评论(0)
推荐(0)
编辑
朴素贝叶斯
摘要: 朴素贝叶斯 (一)引言 朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的常见的机器学习分类算法。假设给定一个训练数据集,首先根据特征条件独立性假设来学习输入/输出 的联合概率分布(学习得到一个模型)。然后根据该模型,对于给定的新的样本数据(即不在训练数据集中),利用贝叶斯定理求出后验概率最大的输
阅读全文
posted @ 2019-12-05 17:31 大大黄小菜鸟
阅读(349)
评论(0)
推荐(0)
编辑
最大匹配算法
摘要: 中文分词:最大匹配算法 (一)引言 分词是自然语言处理中非常常见的操作,也是必不可少的文本数据预处理步骤。各国语言的表达方式和书写方式截然不同,因此分词的方式和难度也不同。英文分词是最简单的,因为每个单词已经用空格自动分词了,比如"I like Chinese" 这个句子已经被分成了三个单词。当然,
阅读全文
posted @ 2019-12-05 17:30 大大黄小菜鸟
阅读(1855)
评论(0)
推荐(1)
编辑