随笔分类 - Data Mining
摘要:1.1 Elasticsearch 是什么 The Elastic Stack, 包括 Elasticsearch、Kibana、Beats 和 Logstash(也称为 ELK Stack)。能够安全可靠地获取任何来源、任何格式的数据,然后实时地对数据进行搜索、分析和可视化。Elaticsearc
阅读全文
摘要:Sphinx(狮身人面像) 想必大家都比较了解,就不作介绍了,不了解的童鞋可以自己Google。 原生的Sphinx只支持中文, 所以这里重点介绍支持中文分词的 Coreseek。 注意:Coreseek 3.2 后,只有安装 Coreseek 就可以了,它对LibMMSeg和sphinx做了整合,不用再安装原生Sphinx。(3.2前是要安装原生Sphinx,还要装补丁,非常繁琐) 安装coreseek 下面以coreseek-3.2.14为例,它基于Sphinx 0.99(不用安装Sphinx 0.99) 详细官方手册:http://www.coreseek.cn/product...
阅读全文
摘要:聚类就是将数据对象分组成多个类或者簇,划分的原则是在同一个粗中的对象之间具有较高的相似度,而不同簇中的对象差别较大。属于一种无指导的学习方法。 好的聚类算法应该满足以下几个方面: (1) 可伸缩型:无论对小数据量还是大数据量应该都是有效的。 (2) 具有处理不同类型属性的能力。 (3) 能够发现任意形状的聚类。 (4) 输入参数对领域知识的弱依赖性 (5) 对于输入记录顺序不敏感 (6) 能够处理很多维度的数据,而不止是对3维左右的数据有效 (7) 处理噪声数据的能力 (8) 基于约束的距离:既能找到满足特定的约束,又具有良好聚类特性的数据分组 (9) 挖掘出来的信息是可理解的和可用的。 聚.
阅读全文
摘要:网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索 引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原 因一方面是抓取.
阅读全文
摘要:序列挖掘 与时间序列分析还是有不同的。序列挖掘一般是指相对时间或者其他顺序出现的序列的高频率子序列的发现,典型的应用还是限于离散型的序列。 序列模式挖掘的一般步骤: (1) 排序阶段:即将原始的数据库转换成序列数据库。 (2) 大项集阶段:中暗处所有频繁的项集(即大项集)组成的集合L。实际上,也同步得到所有大1-序列组成的集合。 (3) 转换阶段:在寻找序列模式的过程中,要不断地检测一个给定的大序列集合是否包含于一个客户序列中。为了使这个过程尽量的快,转换阶段就是将每条记录被所包含的所有最大项目集所取代。如果一条交易不包含任何大项集,在转换完成的序列中它不会被保留。 (4) 序列阶段:利用..
阅读全文