随笔档案「2021年4月」 - kris12

Apache Kudu

摘要：1. Kudu Kudu，Storage for Fast Analytics on fast Data，C++实现的分布式存储系统。是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性：它在商品硬件上运行，可水平扩展，并支持高可用性操作。阅读全文

posted @ 2021-04-14 15:47 kris12 阅读(478) 评论(0) 推荐(0)

DorisDB | 原理剖析和应用实践篇

摘要：1. 数据驱动数据驱动的新趋势对速度和性能要求越来越高: 查询(亚秒级别返回)，快速开发，传统的方式进行预计算kylin、clickhouse, 星型模型--宽表模型--预聚合--(聚合度越高就会丧失一些灵活性，业务变更、维度变化就要重新刷新数据) 星型和雪花模型的多表关联, 高效的即席查询, 阅读全文

posted @ 2021-04-13 23:09 kris12 阅读(7278) 评论(0) 推荐(0)

DorisDB | 使用

摘要：1. 建表字段类型 tinyint 1字节范围：-2^7 + 1 ~ 2^7 - 1 smallint 2字节范围：-2^15 + 1 ~ 2^15 - 1 bigint 8字节范围：-2^63 + 1 ~ 2^63 - 1 largeint 16字节范围：-2^127 + 1 ~ 2^1 阅读全文

posted @ 2021-04-13 23:08 kris12 阅读(4456) 评论(0) 推荐(0)

大数据应用| 技术的学习| 社区的参与

摘要：1. 大数据应用大数据技术，其实起源于 Google 在 2004 年前后发表的三篇论文，也就是我们经常听到的“三驾马车”，分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。搜索引擎主要就做两件事情，一个是网页抓取，一个是索引阅读全文

posted @ 2021-04-10 12:13 kris12 阅读(186) 评论(0) 推荐(0)

Spark| 软件性能优化| spark性能优化案例

摘要：1. 软件性能优化如何进行软件性能优化，系统地了解软件性能优化。所谓性能优化具体要做些什么呢？关于软件性能优化，有个著名的论断。 1. 你不能优化一个没有经过性能测试的软件。 2. 你不能优化一个你不了解其架构设计的软件。如果没有性能测试，那么你就不会知道当前软件的主要性能指标有哪些。通常来说阅读全文

posted @ 2021-04-09 14:35 kris12 阅读(612) 评论(0) 推荐(0)

Hadoop| 发展史

摘要：大数据概述大数据（Big Data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决，海量数据的采集、存储和分析计算问题。按顺序给出数据存储单位：bit、By 阅读全文

posted @ 2021-04-09 14:13 kris12 阅读(593) 评论(0) 推荐(0)

kris12

Self-discipline gives me freedom.

04 2021 档案

公告