2023 年 12月随笔档案 - 又见阿郎

聊聊流式数据湖Paimon(五)

摘要：从Demo入手，了解Paimon/Flink项目搭建的全过程。记录下采坑之旅。创建Flink项目在IDEA中创建Flink项目，由于没有Flink的archetype，因此需要手动创建一下。参考：idea快速创建flink项目，至此Flink的项目框架就搭建起来了。注意：必须注释掉pom文件阅读全文

posted @ 2023-12-29 09:27 又见阿郎阅读(481) 评论(0) 推荐(1) 编辑

聊聊流式数据湖Paimon(四)

摘要：Partial Update 数据打宽通过不同的流写不同的字段，打宽了数据的维度，填充了数据内容；如下所示： --FlinkSQL参数设置 set `table.dynamic-table-options.enabled` = `true`; SET `env.state.backend` = ` 阅读全文

posted @ 2023-12-28 14:12 又见阿郎阅读(2130) 评论(1) 推荐(0) 编辑

聊聊流式数据湖Paimon(三)

摘要：概述如果表没有定义主键，则默认情况下它是仅追加表类型(Append Only Table)。根据桶(Bucket)的定义，我们有两种不同的仅追加模式："Append For Scalable Table"和"Append For Queue"；两种模式支持不同的场景，提供不同的功能。只能向表阅读全文

posted @ 2023-12-25 17:07 又见阿郎阅读(895) 评论(0) 推荐(0) 编辑

聊聊流式数据湖Paimon(二)

摘要：当前的问题 Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖；CDC 数据来自数据库。一般来说，分析需求是不会直接查询数据库的。容易对业务造成影响，一般分析需求会查询全表，这可能导致数据库负载过高，影响业务分析性能不太好，业务数据库阅读全文

posted @ 2023-12-25 15:57 又见阿郎阅读(879) 评论(0) 推荐(0) 编辑

聊聊流式数据湖Paimon(一)

摘要：翻译自 Apache Paimon官方文档概览概述 Apache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。简单来说，Paimon的上游是各个CDC，即changlog数据流；而其自身支持实时sink与s 阅读全文

posted @ 2023-12-25 09:51 又见阿郎阅读(4148) 评论(0) 推荐(0) 编辑

聊聊Flink必知必会(七)

摘要：What is State 虽然数据流中的许多操作一次只查看一个单独的事件（例如事件解析器），但某些操作会记住多个事件的信息（例如窗口算子）。这些操作称为有状态的(stateful)。有状态操作的一些示例：当应用程序搜索某些事件模式(event patterns)时，状态(state)将存储迄阅读全文

posted @ 2023-12-22 13:56 又见阿郎阅读(113) 评论(0) 推荐(0) 编辑

聊聊Flink必知必会(六)

摘要：Flink是一个分布式系统，需要有效地分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器，如Hadoop YARN和Kubernetes，但也可以设置为作为一个独立的集群运行，甚至作为一个库。 Flink集群的剖析 Flink运行时由两种类型的进程组成:一个JobManager和阅读全文

posted @ 2023-12-21 15:48 又见阿郎阅读(135) 评论(0) 推荐(0) 编辑

聊聊神经网络的优化算法

摘要：优化算法主要用于调整神经网络中的超参数，使得训练数据集上的损失函数尽可能小。其核心逻辑是通过计算损失函数对参数的梯度（导数）来确定参数更新方向。 SGD Stochastic Gradient Descent(随机梯度下降法)：随机梯度下降算法是一种改进的梯度下降方法，它在每次更新参数时，只随机选择阅读全文

posted @ 2023-12-18 16:42 又见阿郎阅读(379) 评论(0) 推荐(0) 编辑

聊聊GLM基座模型的理论知识

摘要：概述大模型有两个流程：预训练和推理。预训练是在某种神经网络模型架构上，导入大规模语料数据，通过一系列的神经网络隐藏层的矩阵计算、微分计算等，输出权重，学习率，模型参数等超参数信息。推理是在预训练的成果上，应用超参数文件，基于预训练结果，根据用户的输入信息，推理预测其行为。 GLM模型原理的理解阅读全文

posted @ 2023-12-16 11:08 又见阿郎阅读(746) 评论(0) 推荐(0) 编辑

聊聊ChatGLM2-6B模型的微调

摘要：概述 GLM、ChatGLM的相关基础知识说明： GLM模型底层还是基于Transformer，因此其设计、优化都是围绕Transformer的各个组件的。从注意力层的掩码、位置编码等方面优化与设计。 ChatGLM3/ChatGLM2的源码中，比如finetune、trainer等代码，其实是co 阅读全文

posted @ 2023-12-14 10:02 又见阿郎阅读(424) 评论(0) 推荐(0) 编辑

博客分类汇总

摘要：汇总一下，自己写的博客分类，方便自己日常的学习与积累。更多AI内容，请关注本人公众号 AI LLM 聊聊心理医疗领域大模型的落地思考聊聊大模型微调训练全流程的思考聊聊ChatGLM-6B医疗数据微调聊聊大模型的微调实现及其应用 GLM及其相关系列聊聊ChatGLM-6B源码分析(二) 聊聊阅读全文

posted @ 2023-12-10 12:53 又见阿郎阅读(152) 评论(0) 推荐(1) 编辑

聊聊大数据框架的数据更新解决方案: COW, MOR, MOW

摘要：大数据框架下，常用的数据更新策略有三种: COW: copy-on-write, 写时复制; MOR: merge-on-read, 读时合并; MOW: merge-on-write, 写时合并; hudi等数据湖仓框架，常用的是前两种实现数据更新。而Doris则主要用后两种更新数据。 COW 在阅读全文

posted @ 2023-12-06 11:25 又见阿郎阅读(885) 评论(0) 推荐(1) 编辑

聊聊神经网络模型搭建流程与卷积神经网络的实现

摘要：神经网络模型流程神经网络模型的搭建流程，整理下自己的思路，这个过程不会细分出来，而是主流程。在这里我主要是把整个流程分为两个主流程，即预训练与推理。预训练过程主要是生成超参数文件与搭设神经网络结构；而推理过程就是在应用超参数与神经网络。卷积神经网络的实现在聊聊卷积神经网络CNN中，将卷积神阅读全文

posted @ 2023-12-05 15:03 又见阿郎阅读(468) 评论(0) 推荐(1) 编辑

聊聊神经网络模型预训练生成超参数实现

摘要：概述在上一篇博客中，已经阐述了预训练过程中，神经网络中超参数的计算逻辑，本文，从程序实现的角度，将数学计算转换为程序代码，最终生成超参数文件；并将替换聊聊神经网络模型示例程序——数字的推理预测中已训练好的超参数文件，推理预测数字，最终比对下两者的精确度。神经网络层实现首先，根据神经网络阅读全文

posted @ 2023-12-03 10:16 又见阿郎阅读(240) 评论(0) 推荐(0) 编辑

聊聊神经网络模型传播计算逻辑

摘要：概述预训练过程就是在不断地更新权重超参数与偏置超参数，最后选择合适的超参数，生成超参数文件。上一篇博客是使用已有的预训练超参数文件，要训练自己的超参数，需要对神经网络层中前向传播与反向传播计算熟悉，了解计算逻辑，才能不断地更新选择合适的超参数。神经网络计算详解整个神经网络的层数是4层，从顺序阅读全文

posted @ 2023-12-02 14:40 又见阿郎阅读(366) 评论(0) 推荐(0) 编辑

聊聊神经网络模型示例程序——数字的推理预测

摘要：之前学习了解过了神经网络、CNN、RNN、Transformer的内容，但除了在魔塔上玩过demo，也没有比较深入的从示例去梳理走一遍神经网络的运行流程。从数字推测这个常用的示例走一遍主流程。 MNIST数据集 MNIST是机器学习领域最有名的数据集之一，被应用于从简单的实验到发表的论文研究等各种阅读全文

posted @ 2023-12-01 10:28 又见阿郎阅读(434) 评论(0) 推荐(0) 编辑

又见阿郎

12 2023 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论