百里登风

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

09 2017 档案

深入理解Apache Flink
摘要:Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapRed 阅读全文

posted @ 2017-09-29 09:56 百里登峰 阅读(741) 评论(0) 推荐(0) 编辑

什么是Apache Flink
摘要:大数据计算引擎的发展 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影 阅读全文

posted @ 2017-09-29 09:42 百里登峰 阅读(327) 评论(0) 推荐(0) 编辑

Hadoop IO
摘要:1.数据在存储和传输过程中出现数据的不完整性,数据传输量越大出错的概论就越高。 2.通过校验的方法可以知道数据是不完整的。 3.检测的思路是通过校验和,在传输之前计算一个校验和传输之后再计算一个校验和,两个校验和进行比较,如果不同的话就说明数据错误。 4.常见的检测手段:CRC(循环冗余校验):常见 阅读全文

posted @ 2017-09-27 10:03 百里登峰 阅读(184) 评论(0) 推荐(0) 编辑

HDFS操作及小文件合并
摘要:小文件合并是针对文件上传到HDFS之前 这些文件夹里面都是小文件 参考代码 最后一点,分清楚hadoop fs 和dfs的区别 FS涉及可以指向任何文件系统(如本地,HDFS等)的通用文件系统。因此,当您处理不同的文件系统(如本地FS,HFTP FS,S3 FS等)时,可以使用它 dfs非常具体到H 阅读全文

posted @ 2017-09-25 12:00 百里登峰 阅读(16507) 评论(0) 推荐(0) 编辑

HDFS分布式文件系统
摘要:hadoop致力于构建在廉价的商用服务器上 多副本存储策略(副本数存多少合适) 常见是数据访问方式:流式数据访问(更适合大数据的访问) 随机数据访问(更适合传统的关系型数据库的访问) 阅读全文

posted @ 2017-09-23 22:06 百里登峰 阅读(247) 评论(0) 推荐(0) 编辑

hbase 核心知识
摘要:Hbase 负载均衡 Hbase全局计划 Hbase全局计划执行的流程--估算 Hbase随机分配计划 Hbase 批量启动分配计划 Hbase 通过shell控制负载均衡 何时使用HBase 阅读全文

posted @ 2017-09-20 18:07 百里登峰 阅读(176) 评论(0) 推荐(0) 编辑

机器学习--简单神经网络
摘要:代码实现上面的算法 数据 把数据读取进来显示前10行 把前面0到100行的数据的第4列打印出来 把两种字符串转化为-1 和1 把文件里第0列和第2列的数据打印出来 把前50条数据的第0列作横坐标 第1列为纵坐标 把后50条数据的第0列作横坐标 第1列为纵坐标 把图画出来 对数据可视化准备足够的数据 阅读全文

posted @ 2017-09-17 17:24 百里登峰 阅读(333) 评论(0) 推荐(0) 编辑

Hbase访问方式
摘要:Hbase访问方式 Hbase shell命令操作 Hbase shell命令操作--general操作 首先启动Hbase 启动shell 查看表结构 删除一个表 创建表和查看表结构 插入几条数据 查看有哪些数据 获取一个Row Key 的所以数据 获取一个Row Key,一个列簇 的所以数据 获 阅读全文

posted @ 2017-09-14 16:14 百里登峰 阅读(1234) 评论(0) 推荐(0) 编辑

Hbase 分布式环境安装部署
摘要:Hbase分布式集群搭建--安装步骤 这一步如果没有deploy.sh脚本的可以使用scp命令分别分发到其他节点去 到集群里看看安装好的hbase 使用脚本启动所有节点的zookeeper 启动HDFS 启动Hbase 在浏览器中打开 现在将主的master 杀掉(这里杀死的话需要点点时间) 可以看 阅读全文

posted @ 2017-09-13 22:40 百里登峰 阅读(156) 评论(0) 推荐(0) 编辑

深入学习Hbase架构原理
摘要:概述 Hbase与HDFS对比 Hbase表的特点 行存储与列存储 Hbase 逻辑视图 Hbase数据模型 Hbase支持的操作 Hbase物理存储 Hbase基本架构 Hbase各个组件 Hbase中的zookeeper Hbase容错机制 Hbase 中的region定位 Hbase与关系型数 阅读全文

posted @ 2017-09-13 21:51 百里登峰 阅读(256) 评论(0) 推荐(0) 编辑

kafka的API操作
摘要:在集群的接收端 启动producer 在consumer这边能接收到producer发来的数据 阅读全文

posted @ 2017-09-12 18:19 百里登峰 阅读(171) 评论(0) 推荐(0) 编辑

kafka的几个简单操作
摘要:怎么安装解压kafka这里就不多说了,从配置文件说起 我这里搭建的是三节点集群 master slave1 slave2 修改server.properties 文件 把自己本地安装的zookeeper配置上 还有这个地方broker.id 我这里 master slave1 slave2 分别对于 阅读全文

posted @ 2017-09-12 17:37 百里登峰 阅读(511) 评论(0) 推荐(0) 编辑

SparkStreaming性能调优
摘要:合理的并行度 减少任务启动开销 选择合适的batch Duration 内存调优 设置合理的cpu数 阅读全文

posted @ 2017-09-08 00:34 百里登峰 阅读(167) 评论(0) 推荐(0) 编辑

SparkStreaming 的编程模型
摘要:依赖管理 基本套路 Dstream输入源 input DStream Dstream输入源 Receiver 内置的input Dstream : Basic Source 内置的input Dstream :Advanced Sources Dstream 输入源: multiple input 阅读全文

posted @ 2017-09-07 23:00 百里登峰 阅读(372) 评论(0) 推荐(0) 编辑

SparkStreaming 运行原理与核心概念
摘要:SparkStreaming 运行原理 sparkstreaming 的高层抽象DStream Dstream与RDD的关系 Batch duration 阅读全文

posted @ 2017-09-07 10:49 百里登峰 阅读(261) 评论(0) 推荐(0) 编辑

Spark Streaming 例子
摘要:下在集群跑一下 监听1212端口(端口可以自己随便取) 可以看到反馈信息 阅读全文

posted @ 2017-09-05 23:41 百里登峰 阅读(392) 评论(0) 推荐(0) 编辑

spark streaming 概述
摘要:批处理 & 流处理 像这个是批处理 像这样就是流处理 为什么需要流处理--更多场景需要 Spark Core & RDD 本质上是离线运算 Spark Streaming是什么(分布式的流处理系统) Spark Streaming是什么 Spark Streaming的竞争对手(两都是apache的 阅读全文

posted @ 2017-09-05 12:03 百里登峰 阅读(134) 评论(0) 推荐(0) 编辑

spark sql 的性能调优
摘要:Caching Data in Memory 其他调优参数 阅读全文

posted @ 2017-09-05 09:44 百里登峰 阅读(200) 评论(0) 推荐(0) 编辑

Spark 分布式SQL引擎
摘要:SparkSQL作为分布式查询引擎:两种方式 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎: beeline SparkSQL作为分布式查询引擎: Spark S 阅读全文

posted @ 2017-09-02 15:48 百里登峰 阅读(716) 评论(0) 推荐(0) 编辑

Spark SQL 编程
摘要:Spark SQL的依赖 Spark SQL的入口:SQLContext 官方网站参考 https://spark.apache.org/docs/1.6.2/sql-programming-guide.html#starting-point-sqlcontext 针对几种不同的语言来写。 Spar 阅读全文

posted @ 2017-09-02 00:42 百里登峰 阅读(333) 评论(0) 推荐(0) 编辑

Spark SQL 基本原理
摘要:Spark SQL 模块划分 Spark SQL架构--catalyst设计图 Spark SQL 运行架构 Hive的兼容性 阅读全文

posted @ 2017-09-01 11:23 百里登峰 阅读(352) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示