松伯 - 博客园

2016年1月11日

摘要： Apache Spark提供了强大的API，以便使开发者为使用复杂的分析成为了可能。通过引入SparkSQL，让开发者可以使用这些高级API接口来从事结构化数据的工作（例如数据库表，JSON文件)，并提供面向对象使用RDD的API，开发只需要调用相关的方法便可使用spark来进行数据的存储与计算。阅读全文

posted @ 2016-01-11 21:42 松伯阅读(894) 评论(0) 推荐(0)

2016年1月10日

storm的作业单元：Topology

摘要： Storm系统的数据处理应用单元，是被打包的被称为Topology的作业。它是由多个数据处理阶段组合而成的，而每个处理阶段在构造时被称为组件(Component),在运行时被称为任务。那么，组件根据作用的不同，在Storm中分为两类:Spout组件和Bolt组件。而Topology就是这两类组件通... 阅读全文

posted @ 2016-01-10 21:38 松伯阅读(363) 评论(0) 推荐(0)

storm系统架构学习

摘要： Storm架构如下图所示:1、主控节点(Master Node) 运行Storm nimbus后台服务的节点(Nimbus)，它是storm系统的中心，负责接收用户提交的作业(如同spark submit一样即为jar包形式保存的topology代码)，通过Zookeeper向每个工作节点分配处... 阅读全文

posted @ 2016-01-10 20:59 松伯阅读(841) 评论(0) 推荐(0)

storm概念学习及流处理与批处理的区别

摘要：在过去10 年中，随着互联网应用的高速发展，企业积累的数据量越来越大，越来越多。随着Google MapReduce、Hadoop 等相关技术的出现，处理大规模数据变得简单起来，但是这些数据处理技术都不是实时的系统，它们的设计目标也不是实时计算。毕竟实时的计算系统和基于批处理模型的系统（如Hadoo... 阅读全文

posted @ 2016-01-10 19:05 松伯阅读(6731) 评论(2) 推荐(1)

Spark on Yarn 架构解析

摘要：。一、Hadoop Yarn组件介绍:我们都知道yarn重构根本的思想，是将原有的JobTracker的两个主要功能资源管理器和任务调度监控分离成单独的组件。新的架构使用全局管理所有应用程序的计算资源分配。主要包含三个组件ResourceManager 、NodeManager和Applic... 阅读全文

posted @ 2016-01-10 11:32 松伯阅读(2929) 评论(0) 推荐(2)

2016年1月9日

24种设计模式

摘要： Factory Pattern(工厂模式)：1. 创建对象的接口，封装对象的创建；2. 使具体化类的工作延迟到子类中。（维护一类对象）AbstractFactory Pattern(抽象工厂模型)：该模式将一组对象的创建封装到一个用于创建对象的类中。（解决的问题：要创建一组或者相互依赖的对象）。S... 阅读全文

posted @ 2016-01-09 23:10 松伯阅读(897) 评论(0) 推荐(0)

2016年1月7日

Hadoop使用lzo压缩格式

摘要：在hadoop中搭建lzo环境:wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gzexport CFLAGS=-m64./configure -enable-shared -prefix=/usr/local/h... 阅读全文

posted @ 2016-01-07 23:47 松伯阅读(1773) 评论(0) 推荐(0)

2015年12月29日

SparkSql官方文档中文翻译(java版本)

摘要： 1 概述（Overview）2 DataFrames2.1 入口：SQLContext（Starting Point: SQLContext）2.2 创建DataFrames（Creating DataFrames）2.3 DataFrame操作（DataFrame Operations）2.4 运... 阅读全文

posted @ 2015-12-29 21:00 松伯阅读(6389) 评论(0) 推荐(0)

2015年12月27日

最大熵的Java实现

摘要：这是一个最大熵的简明Java实现，提供训练与预测接口。训练采用GIS训练算法，附带示例训练集。本文旨在介绍最大熵的原理、分类和实现，不涉及公式推导或其他训练算法，请放心食用。最大熵理论简介最大熵属于辨识模型,能够满足所有已知的约束, 对未知的信息不做任何过分的假设。什么叫已知的约束？本文不会使用晦涩... 阅读全文

posted @ 2015-12-27 19:34 松伯阅读(1634) 评论(0) 推荐(0)

最大期望算法 Expectation Maximization概念

摘要：在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clusteri... 阅读全文

posted @ 2015-12-27 19:11 松伯阅读(685) 评论(0) 推荐(0)

2015年12月26日

Apriori 关联算法学习

摘要： 1．挖掘关联规则1.1什么是关联规则一言蔽之，关联规则是形如X→Y的蕴涵式，表示通过X可以推导“得到”Y，其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)1.2如何量化关联规则关联... 阅读全文

posted @ 2015-12-26 19:57 松伯阅读(489) 评论(0) 推荐(0)

2015年12月21日

mysql小问题

摘要：报错信息如下:主要是因为用root用户登录查询其他用户的表，结果这个用户不存在了，所以导致没有权限。临时解决办法，给root赋所有权限:grant all privileges on *.* to root@"%" identified by ".";flush privileges; 阅读全文

posted @ 2015-12-21 10:45 松伯阅读(140) 评论(0) 推荐(0)

2015年12月20日

C4.5决策树算法概念学习

摘要：数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。•分类和聚类•分类(Classification)就是按照某种标准给对象贴标签，再根据标签来区分归类，类别数不变。•聚类(clustering)是指根据“物以类聚”的原理，将本身没有类别的样本聚集成不同的组，这样的一组数据... 阅读全文

posted @ 2015-12-20 22:14 松伯阅读(872) 评论(0) 推荐(0)

线性回归概念学习

摘要：在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。（这反过来又应当由多个... 阅读全文

posted @ 2015-12-20 21:05 松伯阅读(1636) 评论(0) 推荐(0)

2015年12月19日

决策树概念学习

摘要：决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是... 阅读全文

posted @ 2015-12-19 22:08 松伯阅读(936) 评论(0) 推荐(0)

2015年12月17日

Flink on Yarn运行机制

摘要：从图中可以看出，Yarn的客户端需要获取hadoop的配置信息，连接Yarn的ResourceManager。所以要有设置有YARN_CONF_DIR或者HADOOP_CONF_DIR或者HADOOP_CONF_PATH,只要设置了其中一个环境变量，就会被读取。如果读取上述的变量失败了，那么将会选择... 阅读全文

posted @ 2015-12-17 00:58 松伯阅读(1674) 评论(0) 推荐(0)

2015年12月16日

Flink单机版安装与wordCount

摘要： Flink为大数据处理工具，类似hadoop,spark.但它能够在大规模分布式系统中快速处理，与spark相似也是基于内存运算，并以低延迟性和高容错性主城，其核心特性是实时的处理流数据。从此大数据生态圈又再填一员。。。具体详解，还要等之后再分享，这里就先简要带过~Flink的机制:当Flink启动... 阅读全文

posted @ 2015-12-16 02:24 松伯阅读(6373) 评论(1) 推荐(0)

2015年12月15日

Kmeans算法学习与SparkMlLib Kmeans算法尝试

摘要： K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。该算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使... 阅读全文

posted @ 2015-12-15 22:28 松伯阅读(546) 评论(0) 推荐(0)

2015年12月13日

数据挖掘10大算法详细介绍

摘要：想初步了解下怎样数据挖掘，看到一篇不错的文章转载过来啦~转自:http://blog.jobbole.com/89037/在一份调查问卷中，三个独立专家小组投票选出的十大最有影响力的数据挖掘算法，今天我打算用简单的语言来解释一下。一旦你知道了这些算法是什么、怎么工作、能做什么、在哪里能找到，我希望你... 阅读全文

posted @ 2015-12-13 17:04 松伯阅读(1085) 评论(0) 推荐(0)

Spark RDDRelation

摘要： package main.asiainfo.coc.sparksqlimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}case class Record(key: Int, v... 阅读全文

posted @ 2015-12-13 15:23 松伯阅读(470) 评论(0) 推荐(0)

2015年12月10日

LinkedHashMap的实现原理(复习)

摘要： 1. LinkedHashMap概述： LinkedHashMap是Map接口的哈希表和链接列表实现，具有可预知的迭代顺序。此实现提供所有可选的映射操作，并允许使用null值和null键。此类不保证映射的顺序，特别是它不保证该顺序恒久不变。 LinkedHashMap实现与HashMap的不同之处在... 阅读全文

posted @ 2015-12-10 20:53 松伯阅读(283) 评论(0) 推荐(0)

2015年12月9日

HashMap 实现原理（复习)

摘要： 1. HashMap的数据结构数据结构中有数组和链表来实现对数据的存储，但这两者基本上是两个极端。数组数组存储区间是连续的，占用内存严重，故空间复杂的很大。但数组的二分查找时间复杂度小，为O(1)；数组的特点是：寻址容易，插入和删除困难；链表链表存储区间离散，占用内存比较宽松，故空间复杂度很小，... 阅读全文

posted @ 2015-12-09 23:10 松伯阅读(210) 评论(0) 推荐(0)

spark MapOutputTrackerMaster

摘要：最近用了一个RowNumber() over()函数进行三张4000万数据的关联筛选，建表语句如下:create table CiCustomerPortrait2 as SELECT ROW_NUMBER() OVER() as id,* from (select t_7.phone_no,t_... 阅读全文

posted @ 2015-12-09 10:29 松伯阅读(3455) 评论(0) 推荐(0)

2015年12月8日

Hadoop MapReduce编程学习

摘要：一直在搞spark，也没时间弄hadoop，不过Hadoop基本的编程我觉得我还是要会吧，看到一篇不错的文章,不过应该应用于hadoop2.0以前，因为代码中有 conf.set("mapred.job.tracker","192.168.1.2:9001");新框架中已改为 Yarn-site.x... 阅读全文

posted @ 2015-12-08 23:10 松伯阅读(398) 评论(0) 推荐(0)

2015年12月6日

Spark MLlib知识点学习整理

摘要： MLlib的设计原理:把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法，返... 阅读全文

posted @ 2015-12-06 22:02 松伯阅读(2268) 评论(0) 推荐(0)

2015年12月5日

多线程模拟实现生产者／消费者模型 (借鉴)

摘要：在生产者／消费者模型中，生产者Producer负责生产数据，而消费者Consumer负责使用数据。多个生产者线程会在同一时间运行，生产数据，并放到内存中一个共享的区域。期间，多个消费者线程读取内存共享区，消费里面的数据。分析在下面Java应用程序中，生产者线程向一个线程安全的堆栈缓冲区中写（PUSH... 阅读全文

posted @ 2015-12-05 21:37 松伯阅读(2324) 评论(0) 推荐(0)

Spark on yarn配置项说明与优化整理

摘要：配置于spark-default.conf 1. #spark.yarn.applicationMaster.waitTries 5 用于applicationMaster等待Spark master的次数以及SparkContext初始化尝试的次数 (一般不用设置)2.spark.yarn.am... 阅读全文

posted @ 2015-12-05 11:36 松伯阅读(9773) 评论(0) 推荐(1)

2015年12月3日

JVM知识学习与巩固

摘要： JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。我们运行和调试Java程序的时候,经常会提到一个JVM的概念.JVM是Java程序运行的环境,但是他同时一个操作阅读全文

posted @ 2015-12-03 20:52 松伯阅读(304) 评论(0) 推荐(0)

2015年12月2日

Spark读写Hbase中的数据

摘要： def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppName("cocapp").set("spark.kryo.registrator", classOf[HBas... 阅读全文

posted @ 2015-12-02 21:35 松伯阅读(2715) 评论(8) 推荐(0)

同步与异步阻塞与非阻塞

摘要： 1.1所采用生活中的事件：我要去银行办理存钱业务，因为人多，需要排队等待。 1）排队分为在队伍中等待和取号等待两种。在队伍中等待，那么我就需要不断的看看前面的人办理完了没。如果选择取号等待，那么我就比较安逸了，我就不必去管前面的人是否已经办理，我只需要等待别人通知我就行了。也就是这... 阅读全文

posted @ 2015-12-02 11:51 松伯阅读(309) 评论(0) 推荐(0)

nginx软负载的搭建

摘要： Nginx("enginex")是一个高性能的HTTP和反向代理服务器，也是一个IMAP/POP3/SMTP代理服务器，在高连接并发的情况下Nginx是Apache服务器不错的替代品.其特点是占有内存少，并发能力强，事实上nginx的并发能力确实在同类型的网页服务器中表现较好.目前中国大陆使用ngi... 阅读全文

posted @ 2015-12-02 10:44 松伯阅读(1020) 评论(0) 推荐(0)

2015年12月1日

JAVA基础知识

摘要： 1. 什么是 Java 虚拟机？为什么 Java 被称作是 “ 平台无关的编程语言 ” ？ Java 虚拟机是一个可以执行 Java 字节码的虚拟机进程。 Java 源文件被编译成能被 Java 虚拟机执行的字节码文件。 Java 被设计成允许应用程序可以运行在任意的平台，而不需要程序员为每一个平台阅读全文

posted @ 2015-12-01 23:41 松伯阅读(342) 评论(0) 推荐(0)

2015年11月29日

二叉树的深度

摘要：输入一棵二叉树，求该树的深度。从根结点到叶结点依次经过的结点（含根、叶结点）形成树的一条路径，最长路径的长度为树的深度。递归函数以参数节点root为根节点的子树的深度 public class TreeNode { int val = 0; TreeNode left = null; TreeNo 阅读全文

posted @ 2015-11-29 19:57 松伯阅读(172) 评论(0) 推荐(0)

2015年11月28日

sparkStreaming与Kafka整合

摘要： createStream那几个参数折腾了我好久。。网上都是一带而过,最终才搞懂..关于sparkStreaming的还是太少，最终尝试成功。。。首先启动zookeeper./bin/zookeeper-server-start.sh config/zookeeper.properties &启动ka... 阅读全文

posted @ 2015-11-28 21:41 松伯阅读(1298) 评论(0) 推荐(0)

spark RDD transformation与action函数整理

摘要： 1.创建RDDval lines = sc.parallelize(List("pandas","i like pandas"))2.加载本地文件到RDDval linesRDD = sc.textFile("yangsy.txt")3.过滤 filter 需要注意的是 filter并不会在原有RD... 阅读全文

posted @ 2015-11-28 13:30 松伯阅读(2023) 评论(0) 推荐(0)

2015年11月26日

Hbase伪分布式

摘要：其实我就是要让数据存储在hdfs上而已。。。。。。。。多配置点东西就好了，在hbase-site.xml中加入: hbase.rootdir hdfs://yangsy132:9000/user/hive/warehouse/ ... 阅读全文

posted @ 2015-11-26 21:57 松伯阅读(471) 评论(0) 推荐(0)

Redis常用命令

摘要： //randomKey获取随机的key//flushdb 清空当前数据库 ( 就是不点回车)//set get//获取所有Key//更名key集合的操作:使用sadd创建集合使用smembers 查询集合,使用srem删除集合中的元素使用sismember查询集合中是否包含有此元素，有的话则返回... 阅读全文

posted @ 2015-11-26 15:54 松伯阅读(207) 评论(0) 推荐(0)

2015年11月24日

Scala特质

摘要：特质：trait是Scala里代码复用的基础单元。特质封装了方法和字段的定义，并可以通过混入到类中重用它们。不像类的继承那样，每个类都只能继承唯一的超类，类可以混入任意个特质。它们最常用到的两种方式：拓宽瘦接口为胖接口和定义可堆叠的改变。这个特质名为Philosophical。它没有声明超类，因此和... 阅读全文

posted @ 2015-11-24 21:40 松伯阅读(263) 评论(0) 推荐(0)

字符串的排列

摘要：输入一个字符串,按字典序打印出该字符串中字符的所有排列。例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba。结果请按字母顺序输出。public ArrayList Permutation(String str) { A... 阅读全文

posted @ 2015-11-24 00:17 松伯阅读(362) 评论(2) 推荐(0)

2015年11月23日

Scala控制抽象

摘要： private def filesHere = (new java.io.File(".")).listFiles() def filesEnding(query: String) = for(file Boolean) = for(file fileName.endsWit... 阅读全文

posted @ 2015-11-23 23:53 松伯阅读(883) 评论(0) 推荐(0)