2015年11月15日

基于Winnow的中文邮件分类器的设计

摘要: 1背景:电子邮件的广泛应用,垃圾邮件泛滥,垃圾邮件具有危害性,适合英文邮件的分类算法并不一定都适合中文的环境2邮件语料的特征:半结构化,词汇更生活化,需要个人隐私保护3Winnow分类器:线性分类器,错误驱动的反馈机制,训练和分类过程比较简单,易于计算,可以在线学习4分类过程:接受邮件后,解码,提取... 阅读全文

posted @ 2015-11-15 02:33 固执的淡水鱼 阅读(563) 评论(0) 推荐(0) 编辑

2015年11月14日

基于HOG的简单行人检测计数

摘要: 关于HOG的认识基本是参考Dalal的Histograms of Oriented Gradients for Human Detection这篇论文得来的,并且参照了网上的静止图像上的HOG行人检测代码改成了基础的视频上的行人检测。HOG特征提取的基本思想:局部目标的外表和形状可以被局部梯度或边缘... 阅读全文

posted @ 2015-11-14 00:49 固执的淡水鱼 阅读(1232) 评论(1) 推荐(0) 编辑

PageRank算法

摘要: 应用:对于网页检索结果进行排序核心思想:指向一个网站的链接越多,这个网站就越重要;如果一个网站被一些很重要的网站指向,那么这个网站也很重要。PageRank最简单的公式:u是一个网页,Bu是指向u的所有网页的集合,R为最简单的PageRank值,c为标准化因子(0<c<1),Nv为v指向其他网页的总... 阅读全文

posted @ 2015-11-14 00:13 固执的淡水鱼 阅读(171) 评论(0) 推荐(0) 编辑

2015年11月13日

LSA算法简单理解

摘要: 文本挖掘的两个方面应用:(1)分类:a.将词汇表中的字词按意思归类(比如将各种体育运动的名称都归成一类)b.将文本按主题归类(比如将所有介绍足球的新闻归到体育类)(2)检索:用户提出提问式(通常由若干个反映文本主题的词汇组成),然后系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的... 阅读全文

posted @ 2015-11-13 02:25 固执的淡水鱼 阅读(4911) 评论(0) 推荐(0) 编辑

数据挖掘中的离群点检测

摘要: 离群点的定义:离群点是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生一样。离群点的来源:(1)客体的异常行为导致,如欺诈、入侵、不寻常的实验结果(2)数据测量和收集误差(3)数据变量内在特性引起,如顾客新的购买模式、基因突变等 离群点检测的必要性:(1)去除某些异常数据(2)“一个... 阅读全文

posted @ 2015-11-13 01:52 固执的淡水鱼 阅读(1525) 评论(0) 推荐(0) 编辑

导航