摘要: 机器学习 一、线性回归 1.理解回归 主要关注确定一个唯一的因变量和一个或多个数值型的自变量 广义线性回归:逻辑回归、泊松回归 简单的线性回归:形如y=ax+b 2.梯度下降算法 先确定向下一步的步伐大小,称之learning rate 任意给定一个初始值 确定一个向下的方向,并向下走预先规定的步伐 阅读全文
posted @ 2020-01-10 16:19 数据阮小白 阅读(110) 评论(0) 推荐(0) 编辑
摘要: oushuDB应用 一.简介 OushuDB是由Apache HAWQ创始团队基于HAWQ打造的新一代数据仓库(New Data Warehouse)。该产品采用了存储与计算分离技术架构,具有MPP的所有优点,还具有弹性,支持混合工作负载和高扩展性等优点。作为HAWQ的增强版,OushuDB遵循AN 阅读全文
posted @ 2020-01-09 14:16 数据阮小白 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 1.基本操作 创建数据库 createdb [option...] [dbname [description]] 参数说明 dbname:要创建的数据库名。 description:关于新创建的数据库相关的说明 options:参数可选项,可以是以下值:-D tablespace 指定数据库默认表空 阅读全文
posted @ 2020-01-06 15:44 数据阮小白 阅读(660) 评论(0) 推荐(0) 编辑
摘要: 下载安装包 一定要分清楚是32位逇还是64位,这里用的64位的 postgresql-10.11-3-linux-x64-binaries.tar.gz 上传安装包至Linux系统 解压到指定目录 tar -zxvf postgresql-10.11-3-linux-x64-binaries.tar 阅读全文
posted @ 2020-01-06 14:25 数据阮小白 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 一.HAWQ的历史与现状 想法和原型系统(2011):GOH阶段(Greenplum Database On HDFS)。 HAWQ 1.0 Alpha(2012):多个国外大型客户试用,当时客户性能测试是Hive的数百倍。促进了HAWQ 1.0作为正式产品发布。 HAWQ 1.0 GA(2013年 阅读全文
posted @ 2020-01-06 14:14 数据阮小白 阅读(746) 评论(0) 推荐(0) 编辑
摘要: shell脚本练习示例 1.计算1到100的和 #!/bin/bashsum=0for i in `seq 1 100`;do sum=$[$i+$sum]doneecho $sum 2.输入一个数N,计算前n个数的和 #!/bin/bashsum=0for i in `seq 1 100`;do 阅读全文
posted @ 2020-01-02 16:26 数据阮小白 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 机器学习 一、线性回归 1.理解回归 主要关注确定一个唯一的因变量和一个或多个数值型的自变量 广义线性回归:逻辑回归、泊松回归 简单的线性回归:形如y=ax+b 2.梯度下降算法 先确定向下一步的步伐大小,称之learning rate 任意给定一个初始值 确定一个向下的方向,并向下走预先规定的步伐 阅读全文
posted @ 2020-01-02 16:25 数据阮小白 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 初识flink 一、认识flink 1、flink简介 flink是一个低延迟、高吞吐、统一的大数据计算引擎。 flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件。 提供一个Exactly-once的一致性语义,保证了数据的正确性;使得flink大数据引擎可以提供金融级的 阅读全文
posted @ 2020-01-02 16:24 数据阮小白 阅读(333) 评论(0) 推荐(0) 编辑
摘要: kylin的认识 一、cubo和cudoid 1.维度和度量 数据分析领域中两个常用的概念。 维度 观察数据的角度,也就是数据记录的一个属性。 度量 基于数据所计算出来的考量值,通常是一个数据,例如销售额、不同的用户数量。 我们就是从不同的维度来审查度量值,以便我们分析找出其中的变化规律。 对于我们 阅读全文
posted @ 2020-01-02 16:22 数据阮小白 阅读(568) 评论(0) 推荐(0) 编辑
摘要: 1.资源优化 部署spark集群中指定资源分配的默认参数 SPARK_WORKER_CORES 核数 SPARK_WORKER_MEMORY 内存大小 SPARK_WORKER_INSTANCES 每台机器启动worker数 在提交application时给当前的application分配更多的资源 阅读全文
posted @ 2020-01-02 16:20 数据阮小白 阅读(69) 评论(0) 推荐(0) 编辑