2017 年 9月随笔档案 - 百里登峰

深入理解Apache Flink

摘要：Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性，希望能够帮助读者对Flink有更加深入的了解，对其他大数据系统开发者也能有所裨益。本文假设读者已对MapRed 阅读全文

posted @ 2017-09-29 09:56 百里登峰阅读(741) 评论(0) 推荐(0) 编辑

什么是Apache Flink

摘要：大数据计算引擎的发展这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影阅读全文

posted @ 2017-09-29 09:42 百里登峰阅读(327) 评论(0) 推荐(0) 编辑

Hadoop IO

摘要：1.数据在存储和传输过程中出现数据的不完整性，数据传输量越大出错的概论就越高。 2.通过校验的方法可以知道数据是不完整的。 3.检测的思路是通过校验和，在传输之前计算一个校验和传输之后再计算一个校验和，两个校验和进行比较，如果不同的话就说明数据错误。 4.常见的检测手段：CRC（循环冗余校验）：常见阅读全文

posted @ 2017-09-27 10:03 百里登峰阅读(184) 评论(0) 推荐(0) 编辑

HDFS操作及小文件合并

摘要：小文件合并是针对文件上传到HDFS之前这些文件夹里面都是小文件参考代码最后一点，分清楚hadoop fs 和dfs的区别 FS涉及可以指向任何文件系统（如本地，HDFS等）的通用文件系统。因此，当您处理不同的文件系统（如本地FS，HFTP FS，S3 FS等）时，可以使用它 dfs非常具体到H 阅读全文

posted @ 2017-09-25 12:00 百里登峰阅读(16507) 评论(0) 推荐(0) 编辑

HDFS分布式文件系统

摘要：hadoop致力于构建在廉价的商用服务器上多副本存储策略（副本数存多少合适）常见是数据访问方式：流式数据访问（更适合大数据的访问）随机数据访问(更适合传统的关系型数据库的访问) 阅读全文

posted @ 2017-09-23 22:06 百里登峰阅读(247) 评论(0) 推荐(0) 编辑

hbase 核心知识

摘要：Hbase 负载均衡 Hbase全局计划 Hbase全局计划执行的流程--估算 Hbase随机分配计划 Hbase 批量启动分配计划 Hbase 通过shell控制负载均衡何时使用HBase 阅读全文

posted @ 2017-09-20 18:07 百里登峰阅读(176) 评论(0) 推荐(0) 编辑

机器学习--简单神经网络

摘要：代码实现上面的算法数据把数据读取进来显示前10行把前面0到100行的数据的第4列打印出来把两种字符串转化为-1 和1 把文件里第0列和第2列的数据打印出来把前50条数据的第0列作横坐标第1列为纵坐标把后50条数据的第0列作横坐标第1列为纵坐标把图画出来对数据可视化准备足够的数据阅读全文

posted @ 2017-09-17 17:24 百里登峰阅读(333) 评论(0) 推荐(0) 编辑

Hbase访问方式

摘要：Hbase访问方式 Hbase shell命令操作 Hbase shell命令操作--general操作首先启动Hbase 启动shell 查看表结构删除一个表创建表和查看表结构插入几条数据查看有哪些数据获取一个Row Key 的所以数据获取一个Row Key，一个列簇的所以数据获阅读全文

posted @ 2017-09-14 16:14 百里登峰阅读(1234) 评论(0) 推荐(0) 编辑

Hbase 分布式环境安装部署

摘要：Hbase分布式集群搭建--安装步骤这一步如果没有deploy.sh脚本的可以使用scp命令分别分发到其他节点去到集群里看看安装好的hbase 使用脚本启动所有节点的zookeeper 启动HDFS 启动Hbase 在浏览器中打开现在将主的master 杀掉（这里杀死的话需要点点时间）可以看阅读全文

posted @ 2017-09-13 22:40 百里登峰阅读(156) 评论(0) 推荐(0) 编辑

深入学习Hbase架构原理

摘要：概述 Hbase与HDFS对比 Hbase表的特点行存储与列存储 Hbase 逻辑视图 Hbase数据模型 Hbase支持的操作 Hbase物理存储 Hbase基本架构 Hbase各个组件 Hbase中的zookeeper Hbase容错机制 Hbase 中的region定位 Hbase与关系型数阅读全文

posted @ 2017-09-13 21:51 百里登峰阅读(256) 评论(0) 推荐(0) 编辑

kafka的API操作

摘要：在集群的接收端启动producer 在consumer这边能接收到producer发来的数据阅读全文

posted @ 2017-09-12 18:19 百里登峰阅读(171) 评论(0) 推荐(0) 编辑

kafka的几个简单操作

摘要：怎么安装解压kafka这里就不多说了，从配置文件说起我这里搭建的是三节点集群 master slave1 slave2 修改server.properties 文件把自己本地安装的zookeeper配置上还有这个地方broker.id 我这里 master slave1 slave2 分别对于阅读全文

posted @ 2017-09-12 17:37 百里登峰阅读(511) 评论(0) 推荐(0) 编辑

SparkStreaming性能调优

摘要：合理的并行度减少任务启动开销选择合适的batch Duration 内存调优设置合理的cpu数阅读全文

posted @ 2017-09-08 00:34 百里登峰阅读(167) 评论(0) 推荐(0) 编辑

SparkStreaming 的编程模型

摘要：依赖管理基本套路 Dstream输入源 input DStream Dstream输入源 Receiver 内置的input Dstream : Basic Source 内置的input Dstream :Advanced Sources Dstream 输入源: multiple input 阅读全文

posted @ 2017-09-07 23:00 百里登峰阅读(372) 评论(0) 推荐(0) 编辑

SparkStreaming 运行原理与核心概念

摘要：SparkStreaming 运行原理 sparkstreaming 的高层抽象DStream Dstream与RDD的关系 Batch duration 阅读全文

posted @ 2017-09-07 10:49 百里登峰阅读(261) 评论(0) 推荐(0) 编辑

Spark Streaming 例子

摘要：下在集群跑一下监听1212端口(端口可以自己随便取) 可以看到反馈信息阅读全文

posted @ 2017-09-05 23:41 百里登峰阅读(392) 评论(0) 推荐(0) 编辑

spark streaming 概述

摘要：批处理 & 流处理像这个是批处理像这样就是流处理为什么需要流处理--更多场景需要 Spark Core & RDD 本质上是离线运算 Spark Streaming是什么（分布式的流处理系统） Spark Streaming是什么 Spark Streaming的竞争对手（两都是apache的阅读全文

posted @ 2017-09-05 12:03 百里登峰阅读(134) 评论(0) 推荐(0) 编辑

spark sql 的性能调优

摘要：Caching Data in Memory 其他调优参数阅读全文

posted @ 2017-09-05 09:44 百里登峰阅读(200) 评论(0) 推荐(0) 编辑

Spark 分布式SQL引擎

摘要：SparkSQL作为分布式查询引擎：两种方式 SparkSQL作为分布式查询引擎：Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎：Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎： beeline SparkSQL作为分布式查询引擎： Spark S 阅读全文

posted @ 2017-09-02 15:48 百里登峰阅读(716) 评论(0) 推荐(0) 编辑

Spark SQL 编程

摘要：Spark SQL的依赖 Spark SQL的入口：SQLContext 官方网站参考 https://spark.apache.org/docs/1.6.2/sql-programming-guide.html#starting-point-sqlcontext 针对几种不同的语言来写。 Spar 阅读全文

posted @ 2017-09-02 00:42 百里登峰阅读(333) 评论(0) 推荐(0) 编辑

Spark SQL 基本原理

摘要：Spark SQL 模块划分 Spark SQL架构--catalyst设计图 Spark SQL 运行架构 Hive的兼容性阅读全文

posted @ 2017-09-01 11:23 百里登峰阅读(352) 评论(0) 推荐(0) 编辑

百里登风

导航

公告

统计

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

09 2017 档案