爱你一万年123

简单REST 客户端使用 SQL，Hadoop，Drill

摘要：根据福雷斯特研究公司（Forrester Research）的观点，SQL将成为Hadoop生态系统中最多产的应用方案之一。Apache Drill 是一个应用于大数据搜索的开源SQL查询引擎。REST服务和客户端已经成为互联网流行的技术。 Apache HBase则是一个广受欢迎... 阅读全文

posted @ 2015-08-14 20:37 爱你一万年123 阅读(464) 评论(0) 推荐(0)

Apriori算法

摘要：基本原理关联分析（association analysis）就是从大规模数据集中寻找物品间的隐含关系。这里的主要问题是，寻找物品的不同组合是一项十分耗时的任务，所需计算代价很高，蛮力搜索方法并不能解决这个问题，所以需要用更智能的方法在合理的时间内找到频繁项集。Apriori算法正是... 阅读全文

posted @ 2015-08-12 09:48 爱你一万年123 阅读(469) 评论(0) 推荐(0)

K近邻算法

摘要： k-近邻算法是基于实例的学习方法中最基本的，先介绍基于实例学习的相关概念。基于实例的学习。1、已知一系列的训练样例，很多学习方法为目标函数建立起明确的一般化描述；但与此不同，基于实例的学习方法只是简单地把训练样例存储起来。从这些实例中泛化的工作被推迟到必须分类新的实例时。每当学... 阅读全文

posted @ 2015-08-09 19:10 爱你一万年123 阅读(257) 评论(0) 推荐(0)

宝贵数据集——用于数据挖掘、机器学习、文本挖掘

摘要： 1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.html http://www.cs.toronto.edu/~roweis/d... 阅读全文

posted @ 2015-08-09 18:55 爱你一万年123 阅读(156) 评论(0) 推荐(0)

Microsoft 神经网络分析算法

摘要：本篇文章继续我们的微软挖掘系列算法总结，前几篇文章已经将相关的主要算法做了详细的介绍。在开始Microsoft 神经网络分析算法之前，本篇我们先将神经网络分析算法做一个简单介绍，此算法由于其本身的复杂性，所以我打算在开始之前先将算法原理做一个简单的总结，因为本身该算法就隶属于高等数... 阅读全文

posted @ 2015-08-09 18:40 爱你一万年123 阅读(273) 评论(0) 推荐(0)

Java网络爬虫

摘要：实际的爬虫是从一系列的种子链接开始。种子链接是起始节点，种子页面的超链接指向的页面是子节点（中间节点），对于非html文档，如excel等，不能从中提取超链接，看做图的终端节点网络爬虫的基本知识网络爬虫通过遍历互联网络，把网络中的相关网页全部抓取过来，这体现了爬的概念。爬虫如何遍... 阅读全文

posted @ 2015-08-06 17:18 爱你一万年123 阅读(212) 评论(0) 推荐(0)

写Java须知CPU缓存

摘要： CPU，一般认为写C/C++的才需要了解，写高级语言的(Java/C#/pathon…)并不需要了解那么底层的东西。我一开始也是这么想的，但直到碰到LMAX的Disruptor，以及马丁的博文，才发现写Java的，更加不能忽视CPU。经过一段时间的阅读，希望总结一下自己的阅读后的感... 阅读全文

posted @ 2015-08-04 20:29 爱你一万年123 阅读(172) 评论(0) 推荐(0)

MapReduce实现计数

摘要：对于非计算机专人士，大多数统计就是计数，而且许多基础的Hadoop作业都包含了计数过程。我们希望从专利引用数据集中得到专利被引用的次数。这同样是计数。期望的输出结果如下：专利号出现次数 10000 1 100000 1 1000006 1 1000007 1 100001... 阅读全文

posted @ 2015-08-04 10:06 爱你一万年123 阅读(227) 评论(0) 推荐(0)

剖析Mapeduce程序

摘要： MpaReduce程序通过操作键/值对来处理数据，一般形式为 map:(K1,V1)->listreduce:(K2,list(V2))->list 上面是这个数据流的一个相当普通的表现，并无特别之处。而在本节，我们将学习更多的细节，涉及一个典型MapReduce程序的每个阶段。下... 阅读全文

posted @ 2015-08-03 11:08 爱你一万年123 阅读(376) 评论(0) 推荐(0)

HDFS文件操作

摘要： HDFS是一种文件系统，专为MapReduce这类框架下的大规模分布式数据处理而设计。你可以把一个大数据集（比如说100TB）在HDFS中存储为单个文件，而大多数其他的文件系统无力实现这一点。HDFS使你不必考虑这些细节，让你感觉就像在处理单个文件一样。因为HDFS并不是一个天... 阅读全文

posted @ 2015-08-02 20:46 爱你一万年123 阅读(221) 评论(0) 推荐(0)