Fork me on GitHub

04 2021 档案

摘要:1. Kudu Kudu,Storage for Fast Analytics on fast Data,C++实现的分布式存储系统。是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性:它在商品硬件上运行,可水平扩展,并支持高可用性操作。 阅读全文
posted @ 2021-04-14 15:47 kris12 阅读(389) 评论(0) 推荐(0) 编辑
摘要:1. 数据驱动 数据驱动的新趋势 对速度和性能要求越来越高: 查询(亚秒级别返回),快速开发, 传统的方式进行预计算kylin、clickhouse, 星型模型--宽表模型--预聚合--(聚合度越高就会丧失一些灵活性,业务变更、维度变化就要重新刷新数据) 星型和雪花模型的多表关联, 高效的即席查询, 阅读全文
posted @ 2021-04-13 23:09 kris12 阅读(7104) 评论(0) 推荐(0) 编辑
摘要:1. 建表 字段类型 tinyint 1字节 范围:-2^7 + 1 ~ 2^7 - 1 smallint 2字节 范围:-2^15 + 1 ~ 2^15 - 1 bigint 8字节 范围:-2^63 + 1 ~ 2^63 - 1 largeint 16字节 范围:-2^127 + 1 ~ 2^1 阅读全文
posted @ 2021-04-13 23:08 kris12 阅读(4236) 评论(0) 推荐(0) 编辑
摘要:1. 大数据应用 大数据技术,其实起源于 Google 在 2004 年前后发表的三篇论文,也就是我们经常听到的“三驾马车”, 分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。 搜索引擎主要就做两件事情,一个是网页抓取,一个是索引 阅读全文
posted @ 2021-04-10 12:13 kris12 阅读(166) 评论(0) 推荐(0) 编辑
摘要:1. 软件性能优化 如何进行软件性能优化,系统地了解软件性能优化。所谓性能优化具体要做些什么呢? 关于软件性能优化,有个著名的论断。 1. 你不能优化一个没有经过性能测试的软件。 2. 你不能优化一个你不了解其架构设计的软件。 如果没有性能测试,那么你就不会知道当前软件的主要性能指标有哪些。通常来说 阅读全文
posted @ 2021-04-09 14:35 kris12 阅读(504) 评论(0) 推荐(0) 编辑
摘要:大数据概述 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资 产。 大数据主要解决,海量数据的采集、存储和分析计算问题。 按顺序给出数据存储单位:bit、By 阅读全文
posted @ 2021-04-09 14:13 kris12 阅读(549) 评论(0) 推荐(0) 编辑

levels of contents
点击右上角即可分享
微信分享提示