2016 年 1月随笔档案 - 松伯

总体参数的估计（概念）

摘要：举例：到底北京人同意北京大力发展轨道交通，由于不大可能询问所有的一千多万北京市民，人们只好进行抽样调查以得到样本，并用样本中同意发展轨道交通的比例来估计真实的比例，从不同的样本得到的结论也不会完全一样。虽然真实的比例在这种抽样过程中永远不可能知道，但有可能知道估计出来的比例和真实的比例大致差多，从数阅读全文

posted @ 2016-01-31 17:31 松伯阅读(3909) 评论(0) 推荐(0) 编辑

PageRank算法

摘要：PageRank,网页排名，又称网页级别，传说中是PageRank算法拯救了谷歌，它是根据页面之间的超链接计算的技术，作为网页排名的要素之一。它通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票，根据投票的来源(甚至来源的来源，即链接到A页面的阅读全文

posted @ 2016-01-30 15:59 松伯阅读(1168) 评论(0) 推荐(0) 编辑

机会的度量:概率和分布

摘要：在概率论中所说的事件(event)相当于集合论中的集合(set)。互补事件的概率如果一个不出现，则另一个肯定出现的两个事件成为互补事件(complementary events，或者互余事件或对立事件).按照集合的记号，如果一个事件记为A，那么另一个记为的补集。P(A) + P(A) = 1 , 阅读全文

posted @ 2016-01-30 12:21 松伯阅读(688) 评论(0) 推荐(0) 编辑

统计学如何用少量数据概括数据（相关概念)

摘要：用少量数据来概括大量数字是日常生活中常见的。那么可以用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。任何样本的函数，只要不包含总体的未知参数，都称为统计量(statistic)，那么样本的随机性决定了统计量的随机性。数据的"位置" 比如说哪个地方穷，那个阅读全文

posted @ 2016-01-29 10:44 松伯阅读(1753) 评论(0) 推荐(0) 编辑

统计学中抽样调查和一些常用的方法

摘要：抽样调查的领域涉及如何用有效的方式得到样本。这些调查都利用了问卷，而问卷的设计则很有学问。它设计如何用词、问题的次序和问题的选择与组合等等。涉及包括心理学、社会学等知识。问题的语言应该和被调查者的文化水平相适应。那么抽样调查的设计的目的之一是确保样本对总体的代表性，以保证后续推断的可靠性。然而每个个... 阅读全文

posted @ 2016-01-27 10:39 松伯阅读(7787) 评论(1) 推荐(0) 编辑

获取表头信息

摘要：sparksql中获取表头信息方法一:可以使用 describetable; 方法二:先SEThive.cli.print.header=true; 然后 select * from table limit 0;代码中的使用直接通过list> tableHead =jdbcBaseDao.getBa... 阅读全文

posted @ 2016-01-25 13:43 松伯阅读(1359) 评论(0) 推荐(0) 编辑

前一天数据偏移至当日数据

摘要：客户画像项目中可能会遇到此类问题，因为客户画像要求的是对单个用户信息的查询。但倘若以日周期为准，今日梳理的数据宽表中某个字段为null,但此类字段不能以null显示，要以前一天有数据的值为今日的值，就需要做case when处理。同时还有个问题，日表拥有某些客户信息（以日更新)，但并不是用户全量阅读全文

posted @ 2016-01-23 13:24 松伯阅读(343) 评论(0) 推荐(0) 编辑

邻接矩阵学习

摘要：邻接矩阵：是表示顶点之间相邻关系的矩阵。因此，用一个一维数组存放图中所有顶点数据；用一个二维数组存放顶点间的关系（边或弧）的数据，这个二维数组称为邻接矩阵。邻接矩阵又分为有向图邻接矩阵和无向图邻接矩阵。设G=(V,E)是一个图，其中V={v1,v2,.....,vn}。G的邻接矩阵是一个具有下列性质... 阅读全文

posted @ 2016-01-22 14:09 松伯阅读(1335) 评论(0) 推荐(0) 编辑

Spark on Yarn年度知识整理

摘要：大数据体系结构:Spark简介Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布... 阅读全文

posted @ 2016-01-20 21:04 松伯阅读(1074) 评论(0) 推荐(0) 编辑

HBASE解析

摘要：Hbase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，也就是说HBase能够利用HDFS的分布式处理模式，并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势，HBase本身就是十... 阅读全文

posted @ 2016-01-20 20:44 松伯阅读(290) 评论(0) 推荐(0) 编辑

Storm的数据处理编程单元:Bolt 学习整理

摘要：Bolt是Topology中的数据处理的单元，也是Storm针对处理过程的编程单元。Topology中所有的处理都是在这些Bolt中完成的，编程人员可以实现自定义的处理过程，例如，过滤、函数、聚集、连接等计算。如果是复杂的计算过程，往往需要多个步骤和使用多个Bolt。 Bolt可以将数据项发送... 阅读全文

posted @ 2016-01-16 20:45 松伯阅读(1498) 评论(0) 推荐(0) 编辑

jsch ssh服务器调用Linux命令或脚本的小问题

摘要：代码如下: public static boolean execshell(String command, String user, String passwd, String host) throws JSchException, IOException { connect... 阅读全文

posted @ 2016-01-12 23:36 松伯阅读(1014) 评论(0) 推荐(0) 编辑

storm的数据源编程单元Spout学习整理

摘要：Spout呢，是Topology中数据流的源头，也是Storm针对数据源的编程单元。一般数据的来源，是通过外部数据源来读取数据项(Tuple)，并读取的数据项传输至作业的其他组件。编程人员一般可通过OutputFieldsDeclarer类的declareStream()方法来声明多个流，指定数据将... 阅读全文

posted @ 2016-01-12 22:56 松伯阅读(3051) 评论(0) 推荐(0) 编辑

Spark1.6 DataSets简介

摘要：Apache Spark提供了强大的API，以便使开发者为使用复杂的分析成为了可能。通过引入SparkSQL，让开发者可以使用这些高级API接口来从事结构化数据的工作（例如数据库表，JSON文件)，并提供面向对象使用RDD的API，开发只需要调用相关的方法便可使用spark来进行数据的存储与计算。阅读全文

posted @ 2016-01-11 21:42 松伯阅读(877) 评论(0) 推荐(0) 编辑

storm的作业单元：Topology

摘要：Storm系统的数据处理应用单元，是被打包的被称为Topology的作业。它是由多个数据处理阶段组合而成的，而每个处理阶段在构造时被称为组件(Component),在运行时被称为任务。那么，组件根据作用的不同，在Storm中分为两类:Spout组件和Bolt组件。而Topology就是这两类组件通... 阅读全文

posted @ 2016-01-10 21:38 松伯阅读(351) 评论(0) 推荐(0) 编辑

storm系统架构学习

摘要：Storm架构如下图所示:1、主控节点(Master Node) 运行Storm nimbus后台服务的节点(Nimbus)，它是storm系统的中心，负责接收用户提交的作业(如同spark submit一样即为jar包形式保存的topology代码)，通过Zookeeper向每个工作节点分配处... 阅读全文

posted @ 2016-01-10 20:59 松伯阅读(828) 评论(0) 推荐(0) 编辑

storm概念学习及流处理与批处理的区别

摘要：在过去10 年中，随着互联网应用的高速发展，企业积累的数据量越来越大，越来越多。随着Google MapReduce、Hadoop 等相关技术的出现，处理大规模数据变得简单起来，但是这些数据处理技术都不是实时的系统，它们的设计目标也不是实时计算。毕竟实时的计算系统和基于批处理模型的系统（如Hadoo... 阅读全文

posted @ 2016-01-10 19:05 松伯阅读(6695) 评论(2) 推荐(1) 编辑

Spark on Yarn 架构解析

摘要：。一、Hadoop Yarn组件介绍:我们都知道yarn重构根本的思想，是将原有的JobTracker的两个主要功能资源管理器和任务调度监控分离成单独的组件。新的架构使用全局管理所有应用程序的计算资源分配。主要包含三个组件ResourceManager 、NodeManager和Applic... 阅读全文

posted @ 2016-01-10 11:32 松伯阅读(2889) 评论(0) 推荐(2) 编辑

24种设计模式

摘要：Factory Pattern(工厂模式)：1. 创建对象的接口，封装对象的创建；2. 使具体化类的工作延迟到子类中。（维护一类对象）AbstractFactory Pattern(抽象工厂模型)：该模式将一组对象的创建封装到一个用于创建对象的类中。（解决的问题：要创建一组或者相互依赖的对象）。S... 阅读全文

posted @ 2016-01-09 23:10 松伯阅读(877) 评论(0) 推荐(0) 编辑

Hadoop使用lzo压缩格式

摘要：在hadoop中搭建lzo环境:wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gzexport CFLAGS=-m64./configure -enable-shared -prefix=/usr/local/h... 阅读全文

posted @ 2016-01-07 23:47 松伯阅读(1759) 评论(0) 推荐(0) 编辑

搜索

常用链接

随笔分类 (236)

随笔档案 (232)

阅读排行榜

评论排行榜

推荐排行榜

最新评论