12 2023 档案

摘要:从Demo入手,了解Paimon/Flink项目搭建的全过程。记录下采坑之旅。 创建Flink项目 在IDEA中创建Flink项目,由于没有Flink的archetype,因此需要手动创建一下。 参考:idea快速创建flink项目,至此Flink的项目框架就搭建起来了。 注意:必须注释掉pom文件 阅读全文
posted @ 2023-12-29 09:27 又见阿郎 阅读(481) 评论(0) 推荐(1) 编辑
摘要:Partial Update 数据打宽 通过不同的流写不同的字段,打宽了数据的维度,填充了数据内容;如下所示: --FlinkSQL参数设置 set `table.dynamic-table-options.enabled` = `true`; SET `env.state.backend` = ` 阅读全文
posted @ 2023-12-28 14:12 又见阿郎 阅读(2130) 评论(1) 推荐(0) 编辑
摘要:概述 如果表没有定义主键,则默认情况下它是仅追加 表类型(Append Only Table)。 根据桶(Bucket)的定义,我们有两种不同的仅追加模式:"Append For Scalable Table"和"Append For Queue";两种模式支持不同的场景,提供不同的功能。 只能向表 阅读全文
posted @ 2023-12-25 17:07 又见阿郎 阅读(895) 评论(0) 推荐(0) 编辑
摘要:当前的问题 Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖;CDC 数据来自数据库。一般来说,分析需求是不会直接查询数据库的。 容易对业务造成影响,一般分析需求会查询全表,这可能导致数据库负载过高,影响业务 分析性能不太好,业务数据库 阅读全文
posted @ 2023-12-25 15:57 又见阿郎 阅读(879) 评论(0) 推荐(0) 编辑
摘要:翻译自 Apache Paimon官方文档 概览 概述 Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。 简单来说,Paimon的上游是各个CDC,即changlog数据流;而其自身支持实时sink与s 阅读全文
posted @ 2023-12-25 09:51 又见阿郎 阅读(4148) 评论(0) 推荐(0) 编辑
摘要:What is State 虽然数据流中的许多操作一次只查看一个单独的事件(例如事件解析器),但某些操作会记住多个事件的信息(例如窗口算子)。 这些操作称为有状态的(stateful)。 有状态操作的一些示例: 当应用程序搜索某些事件模式(event patterns)时,状态(state)将存储迄 阅读全文
posted @ 2023-12-22 13:56 又见阿郎 阅读(113) 评论(0) 推荐(0) 编辑
摘要:Flink是一个分布式系统,需要有效地分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器,如Hadoop YARN和Kubernetes,但也可以设置为作为一个独立的集群运行,甚至作为一个库。 Flink集群的剖析 Flink运行时由两种类型的进程组成:一个JobManager和 阅读全文
posted @ 2023-12-21 15:48 又见阿郎 阅读(135) 评论(0) 推荐(0) 编辑
摘要:优化算法主要用于调整神经网络中的超参数,使得训练数据集上的损失函数尽可能小。其核心逻辑是通过计算损失函数对参数的梯度(导数)来确定参数更新方向。 SGD Stochastic Gradient Descent(随机梯度下降法):随机梯度下降算法是一种改进的梯度下降方法,它在每次更新参数时,只随机选择 阅读全文
posted @ 2023-12-18 16:42 又见阿郎 阅读(379) 评论(0) 推荐(0) 编辑
摘要:概述 大模型有两个流程:预训练和推理。 预训练是在某种神经网络模型架构上,导入大规模语料数据,通过一系列的神经网络隐藏层的矩阵计算、微分计算等,输出权重,学习率,模型参数等超参数信息。 推理是在预训练的成果上,应用超参数文件,基于预训练结果,根据用户的输入信息,推理预测其行为。 GLM模型原理的理解 阅读全文
posted @ 2023-12-16 11:08 又见阿郎 阅读(746) 评论(0) 推荐(0) 编辑
摘要:概述 GLM、ChatGLM的相关基础知识说明: GLM模型底层还是基于Transformer,因此其设计、优化都是围绕Transformer的各个组件的。从注意力层的掩码、位置编码等方面优化与设计。 ChatGLM3/ChatGLM2的源码中,比如finetune、trainer等代码,其实是co 阅读全文
posted @ 2023-12-14 10:02 又见阿郎 阅读(424) 评论(0) 推荐(0) 编辑
摘要:汇总一下,自己写的博客分类,方便自己日常的学习与积累。 更多AI内容,请关注本人公众号 AI LLM 聊聊心理医疗领域大模型的落地思考 聊聊大模型微调训练全流程的思考 聊聊ChatGLM-6B医疗数据微调 聊聊大模型的微调实现及其应用 GLM及其相关系列 聊聊ChatGLM-6B源码分析(二) 聊聊 阅读全文
posted @ 2023-12-10 12:53 又见阿郎 阅读(152) 评论(0) 推荐(1) 编辑
摘要:大数据框架下,常用的数据更新策略有三种: COW: copy-on-write, 写时复制; MOR: merge-on-read, 读时合并; MOW: merge-on-write, 写时合并; hudi等数据湖仓框架,常用的是前两种实现数据更新。而Doris则主要用后两种更新数据。 COW 在 阅读全文
posted @ 2023-12-06 11:25 又见阿郎 阅读(885) 评论(0) 推荐(1) 编辑
摘要:神经网络模型流程 神经网络模型的搭建流程,整理下自己的思路,这个过程不会细分出来,而是主流程。 在这里我主要是把整个流程分为两个主流程,即预训练与推理。预训练过程主要是生成超参数文件与搭设神经网络结构;而推理过程就是在应用超参数与神经网络。 卷积神经网络的实现 在 聊聊卷积神经网络CNN中,将卷积神 阅读全文
posted @ 2023-12-05 15:03 又见阿郎 阅读(468) 评论(0) 推荐(1) 编辑
摘要:概述 在上一篇博客中,已经阐述了预训练过程中,神经网络中超参数的计算逻辑,本文,从程序实现的角度,将数学计算转换为程序代码,最终生成超参数文件;并将替换 聊聊 神经网络模型 示例程序——数字的推理预测 中已训练好的超参数文件,推理预测数字,最终比对下两者的精确度。 神经网络层实现 首先,根据神经网络 阅读全文
posted @ 2023-12-03 10:16 又见阿郎 阅读(240) 评论(0) 推荐(0) 编辑
摘要:概述 预训练过程就是在不断地更新权重超参数与偏置超参数,最后选择合适的超参数,生成超参数文件。上一篇博客 是使用已有的预训练超参数文件,要训练自己的超参数,需要对神经网络层中前向传播与反向传播计算熟悉,了解计算逻辑,才能不断地更新选择合适的超参数。 神经网络计算详解 整个神经网络的层数是4层,从顺序 阅读全文
posted @ 2023-12-02 14:40 又见阿郎 阅读(366) 评论(0) 推荐(0) 编辑
摘要:之前学习了解过了神经网络、CNN、RNN、Transformer的内容,但除了在魔塔上玩过demo,也没有比较深入的从示例去梳理走一遍神经网络的运行流程。从数字推测这个常用的示例走一遍主流程。 MNIST数据集 MNIST是机器学习领域 最有名的数据集之一,被应用于从简单的实验到发表的论文研究等各种 阅读全文
posted @ 2023-12-01 10:28 又见阿郎 阅读(434) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示