摘要:Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapRed
阅读全文
摘要:大数据计算引擎的发展 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影
阅读全文
摘要:1.数据在存储和传输过程中出现数据的不完整性,数据传输量越大出错的概论就越高。 2.通过校验的方法可以知道数据是不完整的。 3.检测的思路是通过校验和,在传输之前计算一个校验和传输之后再计算一个校验和,两个校验和进行比较,如果不同的话就说明数据错误。 4.常见的检测手段:CRC(循环冗余校验):常见
阅读全文
摘要:小文件合并是针对文件上传到HDFS之前 这些文件夹里面都是小文件 参考代码 最后一点,分清楚hadoop fs 和dfs的区别 FS涉及可以指向任何文件系统(如本地,HDFS等)的通用文件系统。因此,当您处理不同的文件系统(如本地FS,HFTP FS,S3 FS等)时,可以使用它 dfs非常具体到H
阅读全文
摘要:hadoop致力于构建在廉价的商用服务器上 多副本存储策略(副本数存多少合适) 常见是数据访问方式:流式数据访问(更适合大数据的访问) 随机数据访问(更适合传统的关系型数据库的访问)
阅读全文
摘要:Hbase 负载均衡 Hbase全局计划 Hbase全局计划执行的流程--估算 Hbase随机分配计划 Hbase 批量启动分配计划 Hbase 通过shell控制负载均衡 何时使用HBase
阅读全文
摘要:代码实现上面的算法 数据 把数据读取进来显示前10行 把前面0到100行的数据的第4列打印出来 把两种字符串转化为-1 和1 把文件里第0列和第2列的数据打印出来 把前50条数据的第0列作横坐标 第1列为纵坐标 把后50条数据的第0列作横坐标 第1列为纵坐标 把图画出来 对数据可视化准备足够的数据
阅读全文
摘要:Hbase访问方式 Hbase shell命令操作 Hbase shell命令操作--general操作 首先启动Hbase 启动shell 查看表结构 删除一个表 创建表和查看表结构 插入几条数据 查看有哪些数据 获取一个Row Key 的所以数据 获取一个Row Key,一个列簇 的所以数据 获
阅读全文
摘要:Hbase分布式集群搭建--安装步骤 这一步如果没有deploy.sh脚本的可以使用scp命令分别分发到其他节点去 到集群里看看安装好的hbase 使用脚本启动所有节点的zookeeper 启动HDFS 启动Hbase 在浏览器中打开 现在将主的master 杀掉(这里杀死的话需要点点时间) 可以看
阅读全文
摘要:概述 Hbase与HDFS对比 Hbase表的特点 行存储与列存储 Hbase 逻辑视图 Hbase数据模型 Hbase支持的操作 Hbase物理存储 Hbase基本架构 Hbase各个组件 Hbase中的zookeeper Hbase容错机制 Hbase 中的region定位 Hbase与关系型数
阅读全文
摘要:在集群的接收端 启动producer 在consumer这边能接收到producer发来的数据
阅读全文
摘要:怎么安装解压kafka这里就不多说了,从配置文件说起 我这里搭建的是三节点集群 master slave1 slave2 修改server.properties 文件 把自己本地安装的zookeeper配置上 还有这个地方broker.id 我这里 master slave1 slave2 分别对于
阅读全文
摘要:合理的并行度 减少任务启动开销 选择合适的batch Duration 内存调优 设置合理的cpu数
阅读全文
摘要:依赖管理 基本套路 Dstream输入源 input DStream Dstream输入源 Receiver 内置的input Dstream : Basic Source 内置的input Dstream :Advanced Sources Dstream 输入源: multiple input
阅读全文
摘要:SparkStreaming 运行原理 sparkstreaming 的高层抽象DStream Dstream与RDD的关系 Batch duration
阅读全文
摘要:下在集群跑一下 监听1212端口(端口可以自己随便取) 可以看到反馈信息
阅读全文
摘要:批处理 & 流处理 像这个是批处理 像这样就是流处理 为什么需要流处理--更多场景需要 Spark Core & RDD 本质上是离线运算 Spark Streaming是什么(分布式的流处理系统) Spark Streaming是什么 Spark Streaming的竞争对手(两都是apache的
阅读全文
摘要:Caching Data in Memory 其他调优参数
阅读全文
摘要:SparkSQL作为分布式查询引擎:两种方式 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎: beeline SparkSQL作为分布式查询引擎: Spark S
阅读全文
摘要:Spark SQL的依赖 Spark SQL的入口:SQLContext 官方网站参考 https://spark.apache.org/docs/1.6.2/sql-programming-guide.html#starting-point-sqlcontext 针对几种不同的语言来写。 Spar
阅读全文
摘要:Spark SQL 模块划分 Spark SQL架构--catalyst设计图 Spark SQL 运行架构 Hive的兼容性
阅读全文