摘要:Spark: 1.Apache Spark是用于大规模数据处理的统一分析引擎 2.一款分布式内存计算的分析引擎 源数据层: 1.sdk日志埋点 2.日志文件:爬虫日志,业务日志 3.关系型数据库:mysql,oracle等 数据采集层: 1.离线:flume,sqoop,Nifi 2.实时:file
阅读全文
摘要:1.大数据特点:大,多,值,快,信,也称为5V 2.ETL是英文的缩写 Extract >Transform >Load 数据抽取 >数据转换 >数据加载 3.ETL的工作流程: 4.Kettle(水壶) >PDI 5.
阅读全文
摘要:大数据技术框架: 1.存储引擎 1>分布式文件系统HDFS:block,replication 2>NoSQL数据库:Hbase:Table,region 实时存储引擎 3>分布式消息队列Kafka:Topic,Partition 实时存储引擎 4>分布式搜索引擎:Elasticserarch:in
阅读全文
摘要:集群配置文件1: 集群配置文件2: 客户端登录clickhouse: 数据库操作与关系型数据库类似 创建数据库在集群上: zookeeper启动: 配置用户名和密码:
阅读全文
摘要:1.GreePlum:关系型数据库 功能:处理海量数据 产生背景:基于mpp架构衍生出来的 与oracle,mysql差异 1>GreePlum是为大数据而生,处理海量数据 2.MPP是处理大规模数据的计算架构,允许在大规模数据集实现水平扩展 纵向扩展:是指增加硬件 特点: 1.分布式存储(与hdf
阅读全文
摘要:容器化技术优点: 1.自我修复 2.弹性伸缩 3.服务发现 4.负载均衡 5.版本回退 6.存储编排 k8s构成: 1.控制节点:集群的控制平面,负责集群的决策 1>ApiServer 2>Schedule 3>ControllerManager 4>Etcd 2.工作节点:集群的数据平面,负责为容
阅读全文
摘要:大数据: 1.分为2类方向 1.实时方向 2.离线方向 2.3个技术栈: 1.hdoop技术栈 2.spark技术栈 3.flink技术栈 3.hadoop和spark是技能体系 4.生成ssh秘钥命令: ssh-keygen -t rsa -b 4096 5.每天机器之间建立互信,免密登录 ssh
阅读全文