TCP
摘要:首先认识下网络层级 应用层:传递哪种数据,如 http 【大件、小件】 传输层:传输数据的方式,如 TCP、UDP 【干线运输】 网络层:IP 【物流网点】 链路层:具体的传输工具 【卡车】 TCP,传输控制层协议,提供可靠的数据流服务; 当网络不稳定、网络繁忙、网络故障时,基本的网络传输不能正常工
阅读全文
关系型数据库基础
摘要:主键 如果一个属性或者一组属性能唯一标识一行数据,那么这个属性(组)就是主键; 数据表必须有主键,且只能有一个主键,且主键不能重复; 如果是一个属性作为主键,代表列的完整性约束; 如果是一组属性作为主键,代表表的完整性约束; 原则 1. 有且只有一个 2. 唯一性原则:不能重复 3. 最小化原则:如
阅读全文
spark教程(16)-Streaming 之 DStream 详解
摘要:DStream 其实是 RDD 的序列,它的语法与 RDD 类似,分为 transformation(转换) 和 output(输出) 两种操作; DStream 的转换操作分为 无状态转换 和 有状态转换,且 tansformation 也是惰性的; DStream 的输出操作请参考 我的博客 S
阅读全文
spark教程(15)-Streaming
摘要:Spark Streaming 是一个分布式数据流处理框架,它可以近乎实时的处理流数据,它易编程,可以处理大量数据,并且能把实时数据与历史数据结合起来处理。 Streaming 使得 spark 具有了流式处理的能力,它为数据流式处理提供了高层抽象,底层仍然是 spark,所以它具有 spark 的
阅读全文
spark教程(14)-共享变量
摘要:spark 使用的架构是无共享的,数据分布在不同节点,每个节点有独立的 CPU、内存,不存在全局的内存使得变量能够共享,驱动程序和任务之间通过消息共享数据 举例来说,如果一个 RDD 操作使用了驱动程序中的变量,spark 会将这个变量的副本和 task 一起发送给 executor 中的执行者,对
阅读全文
Hive 教程(十)-UDF
摘要:hive 虽然自带了很多函数,但是毕竟有限,无法满足所有业务场景,用户可以自定义函数来实现特定功能 UDF user define function,用户自定义函数 可以分为 3 类 UDF:一进一出 UDAF:聚集函数,多进一出,user define aggregation function U
阅读全文
multivariate_normal 多元正态分布
摘要:多元正态分布 正态分布大家都非常熟悉了,多元正态分布就是多维数据的正态分布,其概率密度函数为 上式为 x 服从 k 元正态分布,x 为 k 维向量;|Σ| 代表协方差矩阵的行列式 二维正态分布概率密度函数为钟形曲面,等高线是椭圆线族,并且二维正态分布的两个边缘分布都是一维正态分布,如图 np.ran
阅读全文
windows 安装 python 踩坑记录
摘要:官方不建议使用 64 bit python,容易出各种问题 Unable to find vcvarsall.bat 凡是安装与操作系统底层相关的 python 扩展都会遇到这个问题,如 PIL,Pillow,gevent 等,当然你可以直接安装编译好的,此时可能无需解决这个问题,但是你只能使用阉割
阅读全文
EM 算法(三)-GMM
摘要:高斯混合模型 混合模型,顾名思义就是几个概率分布密度混合在一起,而高斯混合模型是最常见的混合模型; GMM,全称 Gaussian Mixture Model,中文名高斯混合模型,也就是由多个高斯分布混合起来的模型; 概率密度函数为 K 表示高斯分布的个数,αk 表示每个高斯分布的系数,αk>0,并
阅读全文
EM 算法(二)-KMeans
摘要:KMeans 算法太过简单,不再赘述 本文尝试用 EM 算法解释 KMeans,而事实上 KMeans 算是 EM 的一个特例 EM 算法是包含隐变量的参数估计模型,那对应到 KMeans 上,隐变量是什么?参数又是什么? 参数就是描述一个模型,在 KMeans 中是聚类质心;隐变量是每个样本的类别
阅读全文
EM 算法(一)-原理
摘要:讲到 EM 算法就不得不提极大似然估计,我之前讲过,请参考我的博客 下面我用一张图解释极大似然估计和 EM 算法的区别 EM 算法引例1-抛3枚硬币 还是上图中抛硬币的例子,假设最后结果正面记为1,反面记为0,抛10次,结果为 1101001011; 下面我用数据公式解释下这个例子和 EM 算法;
阅读全文
sklearn-GDBT
摘要:GDBT 可以解决分类和回归问题 回归问题 def __init__(self, loss='ls', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2,
阅读全文
集成学习-Boosting 模型深度串讲
摘要:首先强调一下,这篇文章适合有很好的基础的人 梯度下降 这里不系统讲,只介绍相关的点,便于理解后文 先放一个很早以前写的 梯度下降 实现 logistic regression 的代码 def tiduxiajiang(): """梯度下降算法""" alpha=0.000001 # 学习率的确定方法
阅读全文
Hive 教程(九)-python with hive
摘要:本文介绍用 python 远程连接 hive,此时需要 hive 启动 hiveserver2 服务 windows 下报如下错误 thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl
阅读全文
Hive 教程(八)-hiveserver2
摘要:hive 的另外一种启动方式是 hiveserver2,它是提供了一种服务,使得我们可以远程操作 hive,就像操作 mysql 一样 hiveserver1 既然有 hiveserver2,肯定有 hiveserver1,不过已经被淘汰,不多做解释,hiveserver1 的缺点是不支持并发,hi
阅读全文
Hive 教程(七)-DML基础
摘要:DML,Hive Data Manipulation Language,数据操作语言; 通俗理解就是数据库里与数据的操作,如增删改查,统计汇总等; Loading files into tables 把文件数据写入 table,load 操作不对数据做任何转换 LOAD DATA [LOCAL] I
阅读全文
概率分布汇总
摘要:首先我们需要搞清楚几个概念:概率函数、概率分布、概率密度 我这里只做简单阐述,意在理解概念,可能不严谨。 我们知道变量可分为离散随机变量和连续随机变量; 概率函数:随机变量取某个值的概率 pi=P(X=ai)(i=1,2,3,4,5,6);以骰子为例,每次摇骰子取值为 1-6,取每个数字的概率为 1
阅读全文
Hive 教程(六)-Hive Cli
摘要:hive 有两种启动方式,一种是 bin/hive,一种是 hiveserver2, bin/hive 是 hive 的 shell 模式,所有任务在 shell 中完成,shell 就相当于 hive cli hive 命令行参数 [root@hadoop10 hive2.3.6]# hive -
阅读全文
Hive 教程(五)-参数配置
摘要:配置基本操作 hive> set; 查看所有配置hive> set key; 查看某个配置hive> set key value; 设置某个配置 我们可以看到一些 hadoop 的配置,因为 hive 也读入了 hadoop 的配置 三种参数配置方式 1. 配置文件 默认配置文件:hive-defa
阅读全文
Hive 教程(四)-分区表与分桶表
摘要:在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表。 概念 分区表 在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹; 可以通过多层文件夹的方式创建多层分区; 通过文件夹把数据分开 分桶表 分桶表中的每个桶对应 hdfs 上的一个文件;
阅读全文
Hive 教程(三)-DDL基础
摘要:DDL,Hive Data Definition Language,数据定义语言; 通俗理解就是数据库与库表相关的操作,本文总结一下基本方法 hive 数据仓库配置 hive 数据仓库默认位置在 hdfs 上的 /user/hive/warehouse 路径下; hive 有个默认的数据库叫 def
阅读全文
Hive 教程(二)-认知hive
摘要:在大数据领域,hive 的位置非常重要,排名前三的大数据工具为 spark、hive、kafka 什么是hive 在大数据领域有 3 种需求场景:传输、存储、计算; hive 是一个处理海量的结构化数据的计算引擎; hive 是基于 hadoop 的一个数据仓库工具,他将结构化的数据数据文件映射为一
阅读全文