2021—2022学年第一学期寒假学习记录19

2022.01.19，今天是服务外包竞赛：随便拿个奖队的项目进行的第十九天，今天根据项目要求继续学习matlab数字图像处理

实验原理与设计：

在分类（classification）问题中，常常需要把一个事物分到某个类别。一个事物具有很多属性，把它的众多属性看做一个向量，即x=(x1,x2,x3,…,xn)，用x这个向量来代表这个事物。类别也是有很多种，用集合Y=y1,y2,…ym表示。如果x属于y1类别，就可以给x打上y1标签，意思是说x属于y1类别。这就是所谓的分类(Classification)。x的集合记为X，称为属性集。一般X和Y的关系是不确定的，你只能在某种程度上说x有多大可能性属于类y1，比如说x有80%的可能性属于类y1，这时可以把X和Y看做是随机变量，P(Y|X)称为Y的后验概率（posterior probability），与之相对的，P(Y)称为Y的先验概率（prior probability）1。在训练阶段，我们要根据从训练数据中收集的信息，对X和Y的每一种组合学习后验概率P(Y|X)。分类时，来了一个实例x，在刚才训练得到的一堆后验概率中找出所有的P(Y|x)，其中最大的那个y，即为x所属分类。根据贝叶斯公式，后验概率为

在比较不同Y值的后验概率时，分母P(X)总是常数，因此可以忽略。先验概率P(Y)可以通过计算训练集中属于每一个类的训练样本所占的比例容易地估计。

在文本分类中，假设我们有一个文档d∈X，X是文档向量空间(document space)，和一个固定的类集合C={c1,c2,…,cj}，类别又称为标签。显然，文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合<d,c>作为训练样本，<d,c>∈X×C。例如：<d,c>={Beijing joins the World Trade Organization, China}对于这个只有一句话的文档，我们把它归类到 China，即打上china标签。

我们期望用某种训练算法，训练出一个函数γ，能够将文档映射到某一个类别： γ:X→C这种类型的学习方法叫做有监督学习，因为事先有一个监督者（我们事先给出了一堆打好标签的文档）像个老师一样监督着整个学习过程。朴素贝叶斯分类器是一种有监督学习。

实验主要代码：

1、

由于中文本身是没有自然分割符（如空格之类符号），所以要获得中文文本的特征变量向量首先需要对文本进行中文分词。这里采用极易中文分词组件

2、

先验概率计算，N表示训练文本集总数量。

3、

条件概率计算，为在条件A下发生的条件事件B发生的条件概率。x?给定的文本属性，c?给定的分类

4、

对给定的文本进行分类

三、测试数据

posted @ 2022-01-19 14:02 崤函隳阅读(39) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 2021—2022学年第一学期寒假学习记录20

· 2021—2022学年第一学期寒假学习记录22

· 贝叶斯分类器

· 实验三：朴素贝叶斯算法实验

· Python 物联网入门指南（二）

公告

欢迎阅读『2021—2022学年第一学期寒假学习记录19』

如果你觉得你看懂了我说的话，那么你一定是误解我的意思了

昵称：崤函隳
园龄： 4年8个月
粉丝： 2
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

Arabic	Hebrew	Polish
Bulgarian	Hindi	Portuguese
Catalan	Hmong Daw	Romanian
Chinese Simplified	Hungarian	Russian
Chinese Traditional	Indonesian	Slovak
Czech	Italian	Slovenian
Danish	Japanese	Spanish
Dutch	Klingon	Swedish
English	Korean	Thai
Estonian	Latvian	Turkish
Finnish	Lithuanian	Ukrainian
French	Malay	Urdu
German	Maltese	Vietnamese
Greek	Norwegian	Welsh
Haitian Creole	Persian

崤函隳

2021—2022学年第一学期寒假学习记录19

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜