随笔档案「2019年11月」 - 努力的孔子

TCP

摘要：首先认识下网络层级应用层：传递哪种数据，如 http 【大件、小件】传输层：传输数据的方式，如 TCP、UDP 【干线运输】网络层：IP 【物流网点】链路层：具体的传输工具【卡车】 TCP，传输控制层协议，提供可靠的数据流服务；当网络不稳定、网络繁忙、网络故障时，基本的网络传输不能正常工阅读全文

posted @ 2019-11-28 17:26 努力的孔子阅读(294) 评论(0) 推荐(0)

关系型数据库基础

摘要：主键如果一个属性或者一组属性能唯一标识一行数据，那么这个属性(组)就是主键；数据表必须有主键，且只能有一个主键，且主键不能重复；如果是一个属性作为主键，代表列的完整性约束；如果是一组属性作为主键，代表表的完整性约束；原则 1. 有且只有一个 2. 唯一性原则：不能重复 3. 最小化原则：如阅读全文

posted @ 2019-11-28 16:27 努力的孔子阅读(230) 评论(0) 推荐(0)

spark教程(16)-Streaming 之 DStream 详解

摘要：DStream 其实是 RDD 的序列，它的语法与 RDD 类似，分为 transformation(转换) 和 output(输出) 两种操作； DStream 的转换操作分为无状态转换和有状态转换，且 tansformation 也是惰性的； DStream 的输出操作请参考我的博客 S 阅读全文

posted @ 2019-11-28 15:09 努力的孔子阅读(1870) 评论(0) 推荐(0)

spark教程(15)-Streaming

摘要：Spark Streaming 是一个分布式数据流处理框架，它可以近乎实时的处理流数据，它易编程，可以处理大量数据，并且能把实时数据与历史数据结合起来处理。 Streaming 使得 spark 具有了流式处理的能力，它为数据流式处理提供了高层抽象，底层仍然是 spark，所以它具有 spark 的阅读全文

posted @ 2019-11-27 14:29 努力的孔子阅读(1019) 评论(0) 推荐(0)

spark教程(14)-共享变量

摘要：spark 使用的架构是无共享的，数据分布在不同节点，每个节点有独立的 CPU、内存，不存在全局的内存使得变量能够共享，驱动程序和任务之间通过消息共享数据举例来说，如果一个 RDD 操作使用了驱动程序中的变量，spark 会将这个变量的副本和 task 一起发送给 executor 中的执行者，对阅读全文

posted @ 2019-11-25 15:42 努力的孔子阅读(1416) 评论(0) 推荐(0)

Hive 教程(十)-UDF

摘要：hive 虽然自带了很多函数，但是毕竟有限，无法满足所有业务场景，用户可以自定义函数来实现特定功能 UDF user define function，用户自定义函数可以分为 3 类 UDF：一进一出 UDAF：聚集函数，多进一出，user define aggregation function U 阅读全文

posted @ 2019-11-21 14:33 努力的孔子阅读(977) 评论(0) 推荐(0)

multivariate_normal 多元正态分布

摘要：多元正态分布正态分布大家都非常熟悉了，多元正态分布就是多维数据的正态分布，其概率密度函数为上式为 x 服从 k 元正态分布，x 为 k 维向量；|Σ| 代表协方差矩阵的行列式二维正态分布概率密度函数为钟形曲面，等高线是椭圆线族，并且二维正态分布的两个边缘分布都是一维正态分布，如图 np.ran 阅读全文

posted @ 2019-11-20 16:27 努力的孔子阅读(18371) 评论(0) 推荐(2)

windows 安装 python 踩坑记录

摘要：官方不建议使用 64 bit python，容易出各种问题 Unable to find vcvarsall.bat 凡是安装与操作系统底层相关的 python 扩展都会遇到这个问题，如 PIL，Pillow，gevent 等，当然你可以直接安装编译好的，此时可能无需解决这个问题，但是你只能使用阉割阅读全文

posted @ 2019-11-19 09:34 努力的孔子阅读(2173) 评论(0) 推荐(0)

EM 算法(三)-GMM

摘要：高斯混合模型混合模型，顾名思义就是几个概率分布密度混合在一起，而高斯混合模型是最常见的混合模型； GMM，全称 Gaussian Mixture Model，中文名高斯混合模型，也就是由多个高斯分布混合起来的模型；概率密度函数为 K 表示高斯分布的个数，αk 表示每个高斯分布的系数，αk>0，并阅读全文

posted @ 2019-11-18 17:40 努力的孔子阅读(680) 评论(0) 推荐(0)

EM 算法(二)-KMeans

摘要：KMeans 算法太过简单，不再赘述本文尝试用 EM 算法解释 KMeans，而事实上 KMeans 算是 EM 的一个特例 EM 算法是包含隐变量的参数估计模型，那对应到 KMeans 上，隐变量是什么？参数又是什么？参数就是描述一个模型，在 KMeans 中是聚类质心；隐变量是每个样本的类别阅读全文

posted @ 2019-11-15 17:27 努力的孔子阅读(336) 评论(0) 推荐(0)

EM 算法(一)-原理

摘要：讲到 EM 算法就不得不提极大似然估计，我之前讲过，请参考我的博客下面我用一张图解释极大似然估计和 EM 算法的区别 EM 算法引例1-抛3枚硬币还是上图中抛硬币的例子，假设最后结果正面记为1，反面记为0，抛10次，结果为 1101001011；下面我用数据公式解释下这个例子和 EM 算法；阅读全文

posted @ 2019-11-15 15:58 努力的孔子阅读(631) 评论(0) 推荐(0)

sklearn-GDBT

摘要：GDBT 可以解决分类和回归问题回归问题 def __init__(self, loss='ls', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, 阅读全文

posted @ 2019-11-11 14:53 努力的孔子阅读(438) 评论(0) 推荐(0)

集成学习-Boosting 模型深度串讲

摘要：首先强调一下，这篇文章适合有很好的基础的人梯度下降这里不系统讲，只介绍相关的点，便于理解后文先放一个很早以前写的梯度下降实现 logistic regression 的代码 def tiduxiajiang(): """梯度下降算法""" alpha=0.000001 # 学习率的确定方法阅读全文

posted @ 2019-11-11 11:39 努力的孔子阅读(607) 评论(0) 推荐(0)

Hive 教程(九)-python with hive

摘要：本文介绍用 python 远程连接 hive，此时需要 hive 启动 hiveserver2 服务 windows 下报如下错误 thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl 阅读全文

posted @ 2019-11-05 10:56 努力的孔子阅读(1243) 评论(0) 推荐(0)

Hive 教程(八)-hiveserver2

摘要：hive 的另外一种启动方式是 hiveserver2，它是提供了一种服务，使得我们可以远程操作 hive，就像操作 mysql 一样 hiveserver1 既然有 hiveserver2，肯定有 hiveserver1，不过已经被淘汰，不多做解释，hiveserver1 的缺点是不支持并发，hi 阅读全文

posted @ 2019-11-04 16:39 努力的孔子阅读(4558) 评论(1) 推荐(0)

Hive 教程(七)-DML基础

摘要：DML，Hive Data Manipulation Language，数据操作语言；通俗理解就是数据库里与数据的操作，如增删改查，统计汇总等； Loading files into tables 把文件数据写入 table，load 操作不对数据做任何转换 LOAD DATA [LOCAL] I 阅读全文

posted @ 2019-11-04 11:15 努力的孔子阅读(509) 评论(0) 推荐(0)

概率分布汇总

摘要：首先我们需要搞清楚几个概念：概率函数、概率分布、概率密度我这里只做简单阐述，意在理解概念，可能不严谨。我们知道变量可分为离散随机变量和连续随机变量；概率函数：随机变量取某个值的概率 pi=P(X=ai)(i=1,2,3,4,5,6)；以骰子为例，每次摇骰子取值为 1-6，取每个数字的概率为 1 阅读全文

posted @ 2019-11-02 15:06 努力的孔子阅读(1571) 评论(0) 推荐(0)

Hive 教程(六)-Hive Cli

摘要：hive 有两种启动方式，一种是 bin/hive，一种是 hiveserver2， bin/hive 是 hive 的 shell 模式，所有任务在 shell 中完成，shell 就相当于 hive cli hive 命令行参数 [root@hadoop10 hive2.3.6]# hive - 阅读全文

posted @ 2019-11-02 15:03 努力的孔子阅读(1430) 评论(0) 推荐(0)

Hive 教程(五)-参数配置

摘要：配置基本操作 hive> set; 查看所有配置hive> set key；查看某个配置hive> set key value；设置某个配置我们可以看到一些 hadoop 的配置，因为 hive 也读入了 hadoop 的配置三种参数配置方式 1. 配置文件默认配置文件：hive-defa 阅读全文

posted @ 2019-11-02 14:37 努力的孔子阅读(402) 评论(0) 推荐(0)

Hive 教程(四)-分区表与分桶表

摘要：在 hive 中分区表是很常用的，分桶表可能没那么常用，本文主讲分区表。概念分区表在 hive 中，表是可以分区的，hive 表的每个区其实是对应 hdfs 上的一个文件夹；可以通过多层文件夹的方式创建多层分区；通过文件夹把数据分开分桶表分桶表中的每个桶对应 hdfs 上的一个文件；阅读全文

posted @ 2019-11-02 14:32 努力的孔子阅读(1211) 评论(0) 推荐(0)

Hive 教程(三)-DDL基础

摘要：DDL，Hive Data Definition Language，数据定义语言；通俗理解就是数据库与库表相关的操作，本文总结一下基本方法 hive 数据仓库配置 hive 数据仓库默认位置在 hdfs 上的 /user/hive/warehouse 路径下； hive 有个默认的数据库叫 def 阅读全文

posted @ 2019-11-02 09:49 努力的孔子阅读(874) 评论(0) 推荐(0)

Hive 教程(二)-认知hive

摘要：在大数据领域，hive 的位置非常重要，排名前三的大数据工具为 spark、hive、kafka 什么是hive 在大数据领域有 3 种需求场景：传输、存储、计算； hive 是一个处理海量的结构化数据的计算引擎； hive 是基于 hadoop 的一个数据仓库工具，他将结构化的数据数据文件映射为一阅读全文

posted @ 2019-11-01 10:37 努力的孔子阅读(2071) 评论(0) 推荐(0)

11 2019 档案

导航