上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 127 下一页

2015年8月14日

简单REST 客户端使用 SQL,Hadoop,Drill

摘要: 根据福雷斯特研究公司(Forrester Research)的观点,SQL将成为Hadoop生态系统中最多产的应用方案之一。Apache Drill 是一个应用于大数据搜索的开源SQL查询引擎。REST服务和客户端已经成为互联网流行的技术。 Apache HBase则是一个广受欢迎... 阅读全文

posted @ 2015-08-14 20:37 爱你一万年123 阅读(435) 评论(0) 推荐(0) 编辑

2015年8月12日

Apriori算法

摘要: 基本原理关联分析(association analysis)就是从大规模数据集中寻找物品间的隐含关系。这里的主要问题是,寻找物品的不同组合是一项十分耗时的任务,所需计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间内找到频繁项集。Apriori算法正是... 阅读全文

posted @ 2015-08-12 09:48 爱你一万年123 阅读(419) 评论(0) 推荐(0) 编辑

2015年8月9日

K近邻算法

摘要: k-近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。 基于实例的学习。1、已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样例存储起来。 从这些实例中泛化的工作被推迟到必须分类新的实例时。每当学... 阅读全文

posted @ 2015-08-09 19:10 爱你一万年123 阅读(237) 评论(0) 推荐(0) 编辑

宝贵数据集——用于数据挖掘、机器学习、文本挖掘

摘要: 1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.html http://www.cs.toronto.edu/~roweis/d... 阅读全文

posted @ 2015-08-09 18:55 爱你一万年123 阅读(143) 评论(0) 推荐(0) 编辑

Microsoft 神经网络分析算法

摘要: 本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍。在开始Microsoft 神经网络分析算法之前,本篇我们先将神经网络分析算法做一个简单介绍,此算法由于其本身的复杂性,所以我打算在开始之前先将算法原理做一个简单的总结,因为本身该算法就隶属于高等数... 阅读全文

posted @ 2015-08-09 18:40 爱你一万年123 阅读(253) 评论(0) 推荐(0) 编辑

2015年8月6日

Java网络爬虫

摘要: 实际的爬虫是从一系列的种子链接开始。种子链接是起始节点,种子页面的超链接指向的页面是子节点(中间节点),对于非html文档,如excel等,不能从中提取超链接,看做图的终端节点 网络爬虫的基本知识网络爬虫通过遍历互联网络,把网络中的相关网页全部抓取过来,这体现了爬的概念。爬虫如何遍... 阅读全文

posted @ 2015-08-06 17:18 爱你一万年123 阅读(199) 评论(0) 推荐(0) 编辑

2015年8月4日

写Java须知CPU缓存

摘要: CPU,一般认为写C/C++的才需要了解,写高级语言的(Java/C#/pathon…)并不需要了解那么底层的东西。我一开始也是这么想的,但直到碰到LMAX的Disruptor,以及马丁的博文,才发现写Java的,更加不能忽视CPU。经过一段时间的阅读,希望总结一下自己的阅读后的感... 阅读全文

posted @ 2015-08-04 20:29 爱你一万年123 阅读(147) 评论(0) 推荐(0) 编辑

MapReduce实现计数

摘要: 对于非计算机专人士,大多数统计就是计数,而且许多基础的Hadoop作业都包含了计数过程。我们希望从专利引用数据集中得到专利被引用的次数。这同样是计数。期望的输出结果如下: 专利号 出现次数 10000 1 100000 1 1000006 1 1000007 1 100001... 阅读全文

posted @ 2015-08-04 10:06 爱你一万年123 阅读(208) 评论(0) 推荐(0) 编辑

2015年8月3日

剖析Mapeduce程序

摘要: MpaReduce程序通过操作键/值对来处理数据,一般形式为 map:(K1,V1)->listreduce:(K2,list(V2))->list 上面是这个数据流的一个相当普通的表现,并无特别之处。而在本节,我们将学习更多的细节,涉及一个典型MapReduce程序的每个阶段。下... 阅读全文

posted @ 2015-08-03 11:08 爱你一万年123 阅读(364) 评论(0) 推荐(0) 编辑

2015年8月2日

HDFS文件操作

摘要: HDFS是一种文件系统,专为MapReduce这类框架下的大规模分布式数据处理而设计。你可以把一个大数据集(比如说100TB)在HDFS中存储为单个文件,而大多数其他的文件系统无力实现这一点。HDFS使你不必考虑这些细节,让你感觉就像在处理单个文件一样。 因为HDFS并不是一个天... 阅读全文

posted @ 2015-08-02 20:46 爱你一万年123 阅读(208) 评论(0) 推荐(0) 编辑

上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 127 下一页

导航