11 2023 档案

摘要:卷积神经网络(Convolutional Neural Network,CNN)是一种被广泛应用于图像识别、语音识别和自然语言处理等领域的深度学习模型。与RNN、Transformer模型组成AI的三大基石。 在卷积神经网络中,相比较普通的神经网络,增加了卷积层(Convolution)和池化层(P 阅读全文
posted @ 2023-11-30 14:58 又见阿郎 阅读(672) 评论(0) 推荐(3) 编辑
摘要:优化器的作用是优化查询语句的执行效率,它通过评估不同的执行计划并选择最优的执行计划来实现这一目标。 CBO: 一种基于成本的优化器,它通过评估不同查询执行计划的成本来选择最优的执行计划。CBO会根据数据库系统定义的统计信息以及其他因素,对不同的执行计划进行评估,并选择成本最低的执行计划。CBO的目标 阅读全文
posted @ 2023-11-30 08:42 又见阿郎 阅读(663) 评论(0) 推荐(0) 编辑
摘要:稀疏索引 密集索引:文件中的每个搜索码值都对应一个索引值,就是叶子节点保存了整行. 稀疏索引:文件只为索引码的某些值建立索引项. 稀疏索引的创建过程包括将集合中的元素分段,并给每个分段中的最小元素创建索引。在搜索时,先定位到第一个大于搜索值的索引的前一个索引,然后从该索引所在的分段中从前向后顺序遍历 阅读全文
posted @ 2023-11-29 11:20 又见阿郎 阅读(544) 评论(0) 推荐(1) 编辑
摘要:LSM-Tree Doris的存储结构是类似LSM-Tree设计的,因此很多方面都是通用的,先阅读了解LSM相关的知识,再看Doris的底层存储与读取流程会清晰透彻很多,LSM基本知识如下: 原理:把各种数据先用log等形式组织在内存中(该数据结构称为MemTable,且有序);到达一定数据量后再批 阅读全文
posted @ 2023-11-28 13:27 又见阿郎 阅读(904) 评论(0) 推荐(3) 编辑
摘要:负载均衡 此处的负载均衡指的是FE层的负载均衡. 当部署多个 FE 节点时,用户可以在多个 FE 之上部署负载均衡层来实现 Doris 的高可用。官方文档描述: 负载均衡 。 实现方式 实现方式有多种,如下列举。 开发者在应用层自己进行重试与负载均衡。 JDBC Connector 发现一个连接挂掉 阅读全文
posted @ 2023-11-27 13:56 又见阿郎 阅读(974) 评论(0) 推荐(0) 编辑
摘要:阅读 Doris SQL 原理解析,总结下Doris中SQL解析流程: 词法识别:解析原始SQL文本,拆分token 语法识别:将token转换成AST 单机逻辑查询计划:将AST经过一系列的优化(比如,谓词下推等)成查询计划,提高执行性能与效率。 分布式逻辑查询计划:根据分布式环境(数据分布信息、 阅读全文
posted @ 2023-11-27 10:40 又见阿郎 阅读(221) 评论(0) 推荐(0) 编辑
摘要:FE层的架构都能在网上找到说明. 但BE层的架构模式、一致性保障、与FE层之间的请求逻辑,数据传输逻辑等,我个人暂时没有找到相应的博客说明这些的。当然这些是我个人在学习与使用Doris过程中,对内部交互逻辑与实现感兴趣才有这些疑问. 还好现在有GPT这类大模型,有了疑问,只要问题描述得当,大多可以解 阅读全文
posted @ 2023-11-22 13:44 又见阿郎 阅读(1028) 评论(0) 推荐(0) 编辑
摘要:在 Doris 的存储引擎规则: 表的数据是以分区为单位存储的,不指定分区创建时,默认就一个分区. 用户数据首先被划分成若干个分区(Partition),划分的规则通常是按照用户指定的分区列进行范围划分,比如按时间划分。 在每个分区内,数据被进一步的按照Hash的方式分桶,分桶的规则是要找用户指定的 阅读全文
posted @ 2023-11-21 15:02 又见阿郎 阅读(1280) 评论(0) 推荐(0) 编辑
摘要:Doris中,Leader节点与非Leader节点和Observer节点之间的元数据高可用和一致性,是通过bdbje(全称:Oracle Berkeley DB Java Edition)的一致性和高可用实现的。 元数据与同步流程 元数据主要存储四类数据: 用户数据信息. 包括数据库, 表的sche 阅读全文
posted @ 2023-11-21 08:40 又见阿郎 阅读(789) 评论(0) 推荐(2) 编辑
摘要:MPP MPP:Massively Parallel Processing, 即大规模并行处理. 一般用来指多个SQL数据库节点搭建的数据仓库系统. 执行查询的时候, 查询可以分散到多个SQL数据库节点上执行, 然后汇总返回给用户. Doris Doris 作为一款开源的 MPP 架构 OLAP 高 阅读全文
posted @ 2023-11-20 16:31 又见阿郎 阅读(641) 评论(0) 推荐(0) 编辑
摘要:聊聊Flink的必知必会(三) 聊聊Flink必知必会(四) 从源码中,根据关键的代码,梳理一下Flink中的时间与窗口实现逻辑。 WindowedStream 对数据流执行keyBy()操作后,再调用window()方法,就会返回WindowedStream,表示分区后又加窗的数据流。如果数据流没 阅读全文
posted @ 2023-11-17 15:12 又见阿郎 阅读(487) 评论(0) 推荐(0) 编辑
摘要:从现今与今后的发展来看,单一的业务不再仅仅依靠于传统的技术开发,而是应该结合AI模型来应用、实践。只有这样,才能更数智化,更高效化,更贴合时代的发展。 魔塔 社区就类似国外的Hugging Face,是一个模型即服务的运行平台。在这个平台上运行着很多的大模型示例,网站直接提供了试运行的环境,也可以下 阅读全文
posted @ 2023-11-11 22:58 又见阿郎 阅读(568) 评论(0) 推荐(2) 编辑
摘要:从之前的RNN系列到现在的Transformer模型,是一个演进的过程,技术的实现与迭代并不是一蹴而就,而是一个持续演进的历程。如果一开始就从Tranformer的模型机制来学习,知识的不全面以及欠缺就会导致懵逼甚至看不懂又不理解。 RNN系列: 聊聊RNN&LSTM 聊聊RNN与seq2seq 聊 阅读全文
posted @ 2023-11-04 20:41 又见阿郎 阅读(861) 评论(0) 推荐(0) 编辑
摘要:RNN系列: 聊聊RNN&LSTM 聊聊RNN与seq2seq attention mechanism,称为注意力机制。基于Attention机制,seq2seq可以像我们人类一样,将“注意力”集中在必要的信息上。 Attention的结构 seq2seq存在的问题 seq2seq中使用编码器对时序 阅读全文
posted @ 2023-11-01 11:33 又见阿郎 阅读(306) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示