又见阿郎

2023年12月25日

摘要：概述如果表没有定义主键，则默认情况下它是仅追加表类型(Append Only Table)。根据桶(Bucket)的定义，我们有两种不同的仅追加模式："Append For Scalable Table"和"Append For Queue"；两种模式支持不同的场景，提供不同的功能。只能向表阅读全文

posted @ 2023-12-25 17:07 又见阿郎阅读(1367) 评论(0) 推荐(0)

聊聊流式数据湖Paimon(二)

摘要：当前的问题 Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖；CDC 数据来自数据库。一般来说，分析需求是不会直接查询数据库的。容易对业务造成影响，一般分析需求会查询全表，这可能导致数据库负载过高，影响业务分析性能不太好，业务数据库阅读全文

posted @ 2023-12-25 15:57 又见阿郎阅读(1348) 评论(0) 推荐(0)

聊聊流式数据湖Paimon(一)

摘要：翻译自 Apache Paimon官方文档概览概述 Apache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。简单来说，Paimon的上游是各个CDC，即changlog数据流；而其自身支持实时sink与s 阅读全文

posted @ 2023-12-25 09:51 又见阿郎阅读(6642) 评论(0) 推荐(1)

2023年12月22日

聊聊Flink必知必会(七)

摘要： What is State 虽然数据流中的许多操作一次只查看一个单独的事件（例如事件解析器），但某些操作会记住多个事件的信息（例如窗口算子）。这些操作称为有状态的(stateful)。有状态操作的一些示例：当应用程序搜索某些事件模式(event patterns)时，状态(state)将存储迄阅读全文

posted @ 2023-12-22 13:56 又见阿郎阅读(186) 评论(0) 推荐(0)

2023年12月21日

聊聊Flink必知必会(六)

摘要： Flink是一个分布式系统，需要有效地分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器，如Hadoop YARN和Kubernetes，但也可以设置为作为一个独立的集群运行，甚至作为一个库。 Flink集群的剖析 Flink运行时由两种类型的进程组成:一个JobManager和阅读全文

posted @ 2023-12-21 15:48 又见阿郎阅读(212) 评论(0) 推荐(0)

2023年12月18日

聊聊神经网络的优化算法

摘要：优化算法主要用于调整神经网络中的超参数，使得训练数据集上的损失函数尽可能小。其核心逻辑是通过计算损失函数对参数的梯度（导数）来确定参数更新方向。 SGD Stochastic Gradient Descent(随机梯度下降法)：随机梯度下降算法是一种改进的梯度下降方法，它在每次更新参数时，只随机选择阅读全文

posted @ 2023-12-18 16:42 又见阿郎阅读(508) 评论(0) 推荐(0)

2023年12月16日

聊聊GLM基座模型的理论知识

摘要：概述大模型有两个流程：预训练和推理。预训练是在某种神经网络模型架构上，导入大规模语料数据，通过一系列的神经网络隐藏层的矩阵计算、微分计算等，输出权重，学习率，模型参数等超参数信息。推理是在预训练的成果上，应用超参数文件，基于预训练结果，根据用户的输入信息，推理预测其行为。 GLM模型原理的理解阅读全文

posted @ 2023-12-16 11:08 又见阿郎阅读(1165) 评论(0) 推荐(0)

2023年12月14日

聊聊ChatGLM2-6B模型的微调

摘要：概述 GLM、ChatGLM的相关基础知识说明： GLM模型底层还是基于Transformer，因此其设计、优化都是围绕Transformer的各个组件的。从注意力层的掩码、位置编码等方面优化与设计。 ChatGLM3/ChatGLM2的源码中，比如finetune、trainer等代码，其实是co 阅读全文

posted @ 2023-12-14 10:02 又见阿郎阅读(553) 评论(0) 推荐(0)

2023年12月10日

博客分类汇总

摘要：汇总一下，自己写的博客分类，方便自己日常的学习与积累。更多AI内容，请关注本人公众号 AI LLM 聊聊心理医疗领域大模型的落地思考聊聊大模型微调训练全流程的思考聊聊ChatGLM-6B医疗数据微调聊聊大模型的微调实现及其应用 GLM及其相关系列聊聊ChatGLM-6B源码分析(二) 聊聊阅读全文

posted @ 2023-12-10 12:53 又见阿郎阅读(195) 评论(0) 推荐(1)

2023年12月6日

聊聊大数据框架的数据更新解决方案: COW, MOR, MOW

摘要：大数据框架下，常用的数据更新策略有三种: COW: copy-on-write, 写时复制; MOR: merge-on-read, 读时合并; MOW: merge-on-write, 写时合并; hudi等数据湖仓框架，常用的是前两种实现数据更新。而Doris则主要用后两种更新数据。 COW 在阅读全文

posted @ 2023-12-06 11:25 又见阿郎阅读(1275) 评论(0) 推荐(1)

公告