摘要: 1.K-means算法K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用... 阅读全文
posted @ 2014-11-28 16:10 minxinfeng 阅读(2508) 评论(0) 推荐(0) 编辑
摘要: Bag-of-words模型是信息检索领域常用的文档表示方法。在信息检索中,BOW模型假定对于一个文档,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。也就是说,文档中任意一个位置出现的任何单词,都不受该文档语意影响而独立... 阅读全文
posted @ 2014-11-28 14:46 minxinfeng 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 贝叶斯推断及其互联网应用(一):定理简介 http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html贝叶斯推断及其互联网应用(二):过滤垃圾邮件 http://www.ruanyifeng.com/blog/2011... 阅读全文
posted @ 2014-11-28 11:45 minxinfeng 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 系统日志和事件的数据存储形式主要有两类:无结构的日志数据、结构化或者半结构化的日志事件数据。1.无结构的日志数据:每条日志或者时间都是以一条文本记录或者短文的形式存储在日志文件中,如常见的日志文件:linux日志、Apache服务器日志、Hadoop日志等的日志数据都是记录在一个纯文本日志文件中。整... 阅读全文
posted @ 2014-11-28 11:01 minxinfeng 阅读(639) 评论(0) 推荐(0) 编辑