2018年10月5日

003-文本分析

摘要: 停用词 1.语料中大量出现 2.没啥大用 3.留着过年嘛? Tf-idf:关键词提取 《中国的蜜蜂养殖》: 进行词频(Term Frequency,缩写为TF)统计 出现次数最多的词是 “的”、“是”、“在” 这一类最常用的词(停用词) “中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多,重要性是 阅读全文

posted @ 2018-10-05 10:29 医疗兵皮特儿 阅读(212) 评论(0) 推荐(0) 编辑

002-贝叶斯拼写纠正实例

摘要: 拼写纠正实例: 问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢? P(我们猜测他想输入的单词| 他实际输入的单词) 用户实际输入的单词记为D (D 代表Data ,即观测数据) 猜测1:P(h1 | D),猜测2:P(h2 | D),猜测3:P( 阅读全文

posted @ 2018-10-05 07:49 医疗兵皮特儿 阅读(374) 评论(0) 推荐(0) 编辑

001-贝叶斯算法简介

摘要: 贝叶斯简介: 贝叶斯(约1701-1761) Thomas Bayes,英国数学家 贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章 生不逢时,死后它的作品才被世人认可 贝叶斯要解决的问题: 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大 逆向概率:如果我们 阅读全文

posted @ 2018-10-05 06:39 医疗兵皮特儿 阅读(529) 评论(0) 推荐(0) 编辑

导航