摘要:
本课主题 数据中 Independent 变量和 Dependent 变量 Python 数据预处理的三大神器:Numpy、Pandas、Matplotlib Scikit-Learn 的机器学习实战 数据丢失或者不完整的处理方法及编程实战 Categorical 数据的 Dummy Encoder 阅读全文
摘要:
一个写给自己看的大数据学习笔记,只是想把自己学到的东西写一遍,欢迎交流,共同进步 第一章:大数据 の Linux 基础 (点击进入博客) 第二章:大数据 の Hadoop 基础 (点击进入博客) - 更新中 第三章:大数据 の Hive 和 Impala 基础 (点击进入博客) - 更新中 第四章: 阅读全文
摘要:
本课主题 HBase 读写数据的流程 HBase 性能优化和最住实践 HBase 管理和集群操作 HBase 备份和复制 HBase 读写数据的流程 HBase 性能优化和最住实践 HBase 管理和集群操作 HBase 备份和复制 HBase 读写数据的流程 HBase 性能优化和最住实践 HBa 阅读全文
摘要:
本课主题 NoSQL 数据库介绍 HBase 基本操作 HBase 集群架构与设计介紹 HBase 与HDFS的关系 HBase 数据拆分和紧缩 引言 介绍什么是 NoSQL,NoSQL 和 RDBMS 之间有什么区别,有什么埸景下需要用 NoSQL 数据库,NoSQL 数据的优点和缺点;谈谈 No 阅读全文
摘要:
本课主题 Broadcast 运行原理图 Broadcast 源码解析 Broadcast 运行原理图 Broadcast 就是将数据从一个节点发送到其他的节点上; 例如 Driver 上有一张表,而 Executor 中的每个并行执行的Task (100万个Task) 都要查询这张表的话,那我们通 阅读全文
摘要:
本课主题 集群搭建 设置 Web 服务器 启动 ClouderManager 登入 Cloudera Manager 引言 这部份是一个补充资料,记录如何安装 Cloudera 服务器 集群搭建 用图型界面来设置静态 IP 设置 Web 服务器 [enmoedu@elephant softwares 阅读全文
摘要:
本课主题 Linux 休系结构图 Linux 系统启动的顺序 Linux 查看内存和 CPU 指令 环境变量加载顺序 Linux 内存结构 Linux 休系结构图 Linux 大致分为三个层次,第一层是就是 用户空间层,就是离我们最近的层,它一般有Shell和应用程序,大数据基乎所有的应用软件都在用 阅读全文
摘要:
Python Basic 第一章:Python基础の快速认识基本语法 (点击进入博客)我的第一个HelloPython程序、如何实现用户输入、Python的自带电池(模块)、变量、格式化、条件判断、循环和操作实战 第二章:Python基础の快速认识基本数据类型和操作实战 (点击进入博客)谈谈Pyth 阅读全文
摘要:
Spark 内核 第28课:Spark天堂之门解密 (点击进入博客)从 SparkContext 创建3大核心对象开始到注册给 Master 这个过程中的源码鉴赏 第29课:Master HA彻底解密 (点击进入博客)从 Master 如何基于 ZooKeeper 来做 HA 的源码鉴赏 第30课: 阅读全文
摘要:
本課主題 DataSet 实战 DataSet 实战 SparkSession 是 SparkSQL 的入口,然后可以基于 sparkSession 来获取或者是读取源数据来生存 DataFrameReader,在 Spark 2.x 版本中已经没有 DataFrame 的 API,它变成了 Dat 阅读全文