随笔分类 -  大数据

摘要:基础知识——介绍 Redis简介 REmote Dictionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。 Redis是一个完全开源免费的,使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、高性能 阅读全文
posted @ 2019-07-29 11:48 PanPan003 阅读(715) 评论(0) 推荐(0) 编辑
摘要:Announcing ML.NET 1.0 阅读全文
posted @ 2019-05-07 10:43 PanPan003 阅读(168) 评论(0) 推荐(0) 编辑
摘要:原文链接 云计算最初是实现资源管理的灵活性 云计算不光管资源,也要管应用 大数据拥抱云计算 数据的收集 数据的传输:基于硬盘的分布式队列 数据的存储:分布式文件系统 数据的分析:分布式计算的方法 人工智能拥抱大数据 推理、 知识教授、 基于统计的知识自学(事物间的关联)、 模拟大脑的工作方式(数学单 阅读全文
posted @ 2019-02-25 16:11 PanPan003 阅读(485) 评论(0) 推荐(0) 编辑
摘要:spark生成大宽表的parquet性能优化 阅读全文
posted @ 2019-01-10 16:46 PanPan003 阅读(491) 评论(0) 推荐(0) 编辑
摘要:Hive 导入 parquet 格式数据 Parquet 格式文件,查看Schema Parquet 之mapreduce Hive 导入 parquet 格式数据 阅读全文
posted @ 2019-01-10 16:45 PanPan003 阅读(1358) 评论(0) 推荐(0) 编辑
摘要:parquet列式文件实战 parquet code demo http://www.programcreek.com/java-api-examples/index.php?source_dir=hiped2-master/src/main/java/hip/ch3/parquet/Example 阅读全文
posted @ 2019-01-10 16:42 PanPan003 阅读(284) 评论(0) 推荐(0) 编辑
摘要:大数据架构 大数据架构:搭建CDH5.5.1分布式集群环境 Hive 大数据:Hive常用参数调优 Spark Spark基本架构及原理 SparkContext原理解析 Spark RDD、DataFrame原理及操作详解 Spark On Yarn的两种模式yarn-cluster和yarn-c 阅读全文
posted @ 2019-01-10 16:41 PanPan003 阅读(191) 评论(0) 推荐(0) 编辑
摘要:Spark 学习: spark 原理简述与 shuffle 过程介绍 阅读全文
posted @ 2019-01-10 16:40 PanPan003 阅读(307) 评论(0) 推荐(0) 编辑
摘要:Spark基本架构及原理 Spark(一): 基本架构及原理 Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是: 因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运 阅读全文
posted @ 2019-01-10 15:43 PanPan003 阅读(755) 评论(0) 推荐(0) 编辑
摘要:Parquet文件结构笔记 一个Parquet文件是 由一个header以及一个或多个block块组成,以一个footer结尾。 header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。 文件中所有的metadata都存在于footer中。 footer中的metadata 阅读全文
posted @ 2019-01-10 15:19 PanPan003 阅读(4789) 评论(0) 推荐(0) 编辑
摘要:原文 Parquet 列式存储格式 面向分析型业务的列式存储格式 由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目 列式存储 列式存储和行式存储相比有哪些优势呢? 当时 Twitter 的日增数据量达到压缩之后的 1 阅读全文
posted @ 2019-01-10 11:29 PanPan003 阅读(8865) 评论(0) 推荐(4) 编辑
摘要: 阅读全文
posted @ 2019-01-10 11:26 PanPan003 阅读(172) 评论(0) 推荐(0) 编辑
摘要:docker:负责image、container的管理 kubernetes负责service、deployment、pods、ingress的管理 docker history docker images docker image history 阅读全文
posted @ 2018-12-18 18:09 PanPan003 阅读(2938) 评论(0) 推荐(1) 编辑
摘要:Overview One of the reasons Docker containers and services are so powerful is that you can connect them together, or connect them to non-Docker worklo 阅读全文
posted @ 2018-07-11 17:13 PanPan003 阅读(726) 评论(0) 推荐(0) 编辑
摘要:Examples using the Docker Engine SDKs and Docker API After you install Docker, you can install the Go and Python SDKs and also try out the Docker Engi 阅读全文
posted @ 2018-07-11 17:00 PanPan003 阅读(361) 评论(0) 推荐(0) 编辑
摘要:Develop with Docker Engine SDKs and API Docker provides an API for interacting with the Docker daemon (called the Docker Engine API), as well as SDKs 阅读全文
posted @ 2018-07-11 14:09 PanPan003 阅读(1062) 评论(0) 推荐(0) 编辑
摘要:Dockerize PostgreSQL Installing PostgreSQL on Docker Assuming there is no Docker image that suits your needs on the Docker Hub, you can create one you 阅读全文
posted @ 2018-07-11 14:07 PanPan003 阅读(354) 评论(0) 推荐(0) 编辑
摘要:Dockerize a .NET Core application Introduction This example demonstrates how to dockerize an ASP.NET Core application. Why build ASP.NET Core? Open-so 阅读全文
posted @ 2018-07-11 13:49 PanPan003 阅读(358) 评论(0) 推荐(0) 编辑
摘要:Manage images The easiest way to make your images available for use by others inside or outside your organization is to use a Docker registry, such as 阅读全文
posted @ 2018-07-11 12:58 PanPan003 阅读(265) 评论(0) 推荐(0) 编辑
摘要:COPY COPY has two forms: COPY [--chown=<user>:<group>] <src>... <dest> COPY [--chown=<user>:<group>] ["<src>",... "<dest>"] (this form is required for 阅读全文
posted @ 2018-07-10 18:44 PanPan003 阅读(297) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示