SparkSql官方文档中文翻译(java版本)
摘要:1 概述(Overview)2 DataFrames2.1 入口:SQLContext(Starting Point: SQLContext)2.2 创建DataFrames(Creating DataFrames)2.3 DataFrame操作(DataFrame Operations)2.4 运...
阅读全文
posted @
2015-12-29 21:00
松伯
阅读(6322)
推荐(0) 编辑
最大熵的Java实现
摘要:这是一个最大熵的简明Java实现,提供训练与预测接口。训练采用GIS训练算法,附带示例训练集。本文旨在介绍最大熵的原理、分类和实现,不涉及公式推导或其他训练算法,请放心食用。最大熵理论简介最大熵属于辨识模型,能够满足所有已知的约束, 对未知的信息不做任何过分的假设。什么叫已知的约束?本文不会使用晦涩...
阅读全文
posted @
2015-12-27 19:34
松伯
阅读(1617)
推荐(0) 编辑
最大期望算法 Expectation Maximization概念
摘要:在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clusteri...
阅读全文
posted @
2015-12-27 19:11
松伯
阅读(653)
推荐(0) 编辑
Apriori 关联算法学习
摘要:1.挖掘关联规则1.1什么是关联规则一言蔽之,关联规则是形如X→Y的蕴涵式,表示通过X可以推导“得到”Y,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)1.2如何量化关联规则关联...
阅读全文
posted @
2015-12-26 19:57
松伯
阅读(437)
推荐(0) 编辑
mysql小问题
摘要:报错信息如下:主要是因为用root用户登录查询其他用户的表,结果这个用户不存在了,所以导致没有权限。临时解决办法,给root赋所有权限:grant all privileges on *.* to root@"%" identified by ".";flush privileges;
阅读全文
posted @
2015-12-21 10:45
松伯
阅读(135)
推荐(0) 编辑
C4.5决策树算法概念学习
摘要:数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。•分类和聚类•分类(Classification)就是按照某种标准给对象贴标签,再根据标签来区分归类,类别数不变。•聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据...
阅读全文
posted @
2015-12-20 22:14
松伯
阅读(847)
推荐(0) 编辑
线性回归概念学习
摘要:在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个...
阅读全文
posted @
2015-12-20 21:05
松伯
阅读(1592)
推荐(0) 编辑
决策树概念学习
摘要:决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是...
阅读全文
posted @
2015-12-19 22:08
松伯
阅读(905)
推荐(0) 编辑
Flink on Yarn运行机制
摘要:从图中可以看出,Yarn的客户端需要获取hadoop的配置信息,连接Yarn的ResourceManager。所以要有设置有YARN_CONF_DIR或者HADOOP_CONF_DIR或者HADOOP_CONF_PATH,只要设置了其中一个环境变量,就会被读取。如果读取上述的变量失败了,那么将会选择...
阅读全文
posted @
2015-12-17 00:58
松伯
阅读(1651)
推荐(0) 编辑
Flink单机版安装与wordCount
摘要:Flink为大数据处理工具,类似hadoop,spark.但它能够在大规模分布式系统中快速处理,与spark相似也是基于内存运算,并以低延迟性和高容错性主城,其核心特性是实时的处理流数据。从此大数据生态圈又再填一员。。。具体详解,还要等之后再分享,这里就先简要带过~Flink的机制:当Flink启动...
阅读全文
posted @
2015-12-16 02:24
松伯
阅读(6357)
推荐(0) 编辑
Kmeans算法学习与SparkMlLib Kmeans算法尝试
摘要:K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。该算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使...
阅读全文
posted @
2015-12-15 22:28
松伯
阅读(524)
推荐(0) 编辑
数据挖掘10大算法详细介绍
摘要:想初步了解下怎样数据挖掘,看到一篇不错的文章转载过来啦~转自:http://blog.jobbole.com/89037/在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下。一旦你知道了这些算法是什么、怎么工作、能做什么、在哪里能找到,我希望你...
阅读全文
posted @
2015-12-13 17:04
松伯
阅读(1044)
推荐(0) 编辑
Spark RDDRelation
摘要:package main.asiainfo.coc.sparksqlimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}case class Record(key: Int, v...
阅读全文
posted @
2015-12-13 15:23
松伯
阅读(459)
推荐(0) 编辑
LinkedHashMap的实现原理(复习)
摘要:1. LinkedHashMap概述: LinkedHashMap是Map接口的哈希表和链接列表实现,具有可预知的迭代顺序。此实现提供所有可选的映射操作,并允许使用null值和null键。此类不保证映射的顺序,特别是它不保证该顺序恒久不变。 LinkedHashMap实现与HashMap的不同之处在...
阅读全文
posted @
2015-12-10 20:53
松伯
阅读(270)
推荐(0) 编辑
HashMap 实现原理(复习)
摘要:1. HashMap的数据结构数据结构中有数组和链表来实现对数据的存储,但这两者基本上是两个极端。 数组数组存储区间是连续的,占用内存严重,故空间复杂的很大。但数组的二分查找时间复杂度小,为O(1);数组的特点是:寻址容易,插入和删除困难;链表链表存储区间离散,占用内存比较宽松,故空间复杂度很小,...
阅读全文
posted @
2015-12-09 23:10
松伯
阅读(202)
推荐(0) 编辑
spark MapOutputTrackerMaster
摘要:最近用了一个RowNumber() over()函数 进行三张4000万数据的关联筛选,建表语句如下:create table CiCustomerPortrait2 as SELECT ROW_NUMBER() OVER() as id,* from (select t_7.phone_no,t_...
阅读全文
posted @
2015-12-09 10:29
松伯
阅读(3440)
推荐(0) 编辑
Hadoop MapReduce编程学习
摘要:一直在搞spark,也没时间弄hadoop,不过Hadoop基本的编程我觉得我还是要会吧,看到一篇不错的文章,不过应该应用于hadoop2.0以前,因为代码中有 conf.set("mapred.job.tracker","192.168.1.2:9001");新框架中已改为 Yarn-site.x...
阅读全文
posted @
2015-12-08 23:10
松伯
阅读(390)
推荐(0) 编辑
Spark MLlib知识点学习整理
摘要:MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法,返...
阅读全文
posted @
2015-12-06 22:02
松伯
阅读(2241)
推荐(0) 编辑
多线程模拟实现生产者/消费者模型 (借鉴)
摘要:在生产者/消费者模型中,生产者Producer负责生产数据,而消费者Consumer负责使用数据。多个生产者线程会在同一时间运行,生产数据,并放到内存中一个共享的区域。期间,多个消费者线程读取内存共享区,消费里面的数据。分析在下面Java应用程序中,生产者线程向一个线程安全的堆栈缓冲区中写(PUSH...
阅读全文
posted @
2015-12-05 21:37
松伯
阅读(2297)
推荐(0) 编辑
Spark on yarn配置项说明与优化整理
摘要:配置于spark-default.conf 1. #spark.yarn.applicationMaster.waitTries 5 用于applicationMaster等待Spark master的次数以及SparkContext初始化尝试的次数 (一般不用设置)2.spark.yarn.am...
阅读全文
posted @
2015-12-05 11:36
松伯
阅读(9713)
推荐(1) 编辑
JVM知识学习与巩固
摘要:JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。 我们运行和调试Java程序的时候,经常会提到一个JVM的概念.JVM是Java程序运行的环境,但是他同时一个操作
阅读全文
posted @
2015-12-03 20:52
松伯
阅读(284)
推荐(0) 编辑
Spark读写Hbase中的数据
摘要:def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppName("cocapp").set("spark.kryo.registrator", classOf[HBas...
阅读全文
posted @
2015-12-02 21:35
松伯
阅读(2704)
推荐(0) 编辑
同步与异步 阻塞与非阻塞
摘要:1.1所采用生活中的事件: 我要去银行办理存钱业务,因为人多,需要排队等待。 1)排队分为在队伍中等待和取号等待两种。在队伍中等待,那么我就需要不断的看看前面的人办理完了没。如果选择取号等待,那么我就比较安逸了,我就不必去管前面的人是否已经办理,我只需要等待别人通知我就行了。也就是这...
阅读全文
posted @
2015-12-02 11:51
松伯
阅读(290)
推荐(0) 编辑
nginx软负载的搭建
摘要:Nginx("enginex")是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP代理服务器,在高连接并发的情况下Nginx是Apache服务器不错的替代品.其特点是占有内存少,并发能力强,事实上nginx的并发能力确实在同类型的网页服务器中表现较好.目前中国大陆使用ngi...
阅读全文
posted @
2015-12-02 10:44
松伯
阅读(1000)
推荐(0) 编辑
JAVA基础知识
摘要:1. 什么是 Java 虚拟机?为什么 Java 被称作是 “ 平台无关的编程语言 ” ? Java 虚拟机是一个可以执行 Java 字节码的虚拟机进程。 Java 源文件被编译成能被 Java 虚拟机执行的字节码文件。 Java 被设计成允许应用程序可以运行在任意的平台,而不需要程序员为每一个平台
阅读全文
posted @
2015-12-01 23:41
松伯
阅读(327)
推荐(0) 编辑