2024 年 5月随笔档案 - 人不疯狂枉一生

Langchain试用百度千帆

摘要：之前聊了向量数据库，大模型也火了一段时间了，今天特地尝试一下基于Langchain进行百度千帆大模型的使用。Langchain相当于一个LLM编程框架，开发中无需过多关心各个大模型的接入，只需安装相关模型，统一通过Langchain去调用相关大模型进行使用。 1.环境准备 (1)python安装 L 阅读全文

posted @ 2024-05-31 10:17 人不疯狂枉一生阅读(435) 评论(0) 推荐(0) 编辑

向量数据库HNSW算法

摘要：向量数据库构建好embedding后，需要通过相关算法进行检索，它常用到的相似性搜索算法有HNSW，HNSW算法是NSW算法改进而来,它是属于ANN算法中不同类别的图类别中的一种。节点与节点之间的连接方式可以形成3类图：正则图，随机图，正则和随机结合图（小世界），如下图1： 1.正则图在图论中根阅读全文

posted @ 2024-05-28 14:33 人不疯狂枉一生阅读(259) 评论(0) 推荐(0) 编辑

向量数据库

摘要：随着LLM的起飞，向量数据库也跟着火爆，好多做向量数据库的初创企业ppt刚写好，就拿到几千万美元的风投。向量数据库是一种特殊的数据库，它是存储了一堆浮点数，这些浮点数排列到一起就像一个数组，这些浮点数在向量数据库里面被称为维度，通过这些维度向量数据库可以存储和检索海量的高维数据，支持复杂查询和分析阅读全文

posted @ 2024-05-24 15:20 人不疯狂枉一生阅读(110) 评论(0) 推荐(0) 编辑

Flink双流Join

摘要：Flink双流Join分为window join、internal join、connect、维表广播等方法,其中window join又分为Tumbling Window Join、Sliding Window Join、Session Window Join;connect只能连接两个流，并且数阅读全文

posted @ 2024-05-23 10:32 人不疯狂枉一生阅读(143) 评论(0) 推荐(0) 编辑

Flink富函数

摘要：富函数是DataStream API提供的函数接口，Flink的函数都有它的Rich版本，它与其他函数不同的是，富函数可以获取到运行环境上下文，初始化参数，拥有生命周期方法等，可通过它进行自定义复杂功能。我们常见的如RichMapFunction、RichFilterFunction等。富函数的生阅读全文

posted @ 2024-05-21 12:40 人不疯狂枉一生阅读(101) 评论(0) 推荐(0) 编辑

Flink内存模型

摘要：之前聊Flink的slot时简单提到过内存，Flink计算框架的内存大致分为Flink使用的内存、Jvm使用的内存。Flink为什么不全使用JVM内存的原因是显而易见的，作为实时计算框架，JVM内存依赖GC自动回收一旦稍微慢一点，就会对系统性能造成巨大影响，而且使用JVM内存容易内存溢出，所以Fli 阅读全文

posted @ 2024-05-20 14:41 人不疯狂枉一生阅读(64) 评论(0) 推荐(0) 编辑

Flink精确消费一次

摘要：在大数据计算里面，计算引擎是处于承上启下的作用，对上承接数据源，对下承接各种各种数据库，比如mysql、oracle。对于任何数据计算来说要想精确消费一次，就需要支持事务或者幂等，我们最常见的支持事务的就是单点的oracle、mysql数据库，那么Flink作为分布式计算引擎，是如何做到精确消费一次阅读全文

posted @ 2024-05-19 18:23 人不疯狂枉一生阅读(110) 评论(0) 推荐(0) 编辑

Flink的State

摘要：有状态的计算是流式计算框架的一个重要功能，很多复杂的计算场景都需要记录一下相关的状态。Flink State一种为了满足算子计算时需要历史数据需求的，使用 checkpoint 机制进行容错，存储在 state backend 的数据结构。 1.State分类 Flink State被分为keyed 阅读全文

posted @ 2024-05-16 14:54 人不疯狂枉一生阅读(81) 评论(0) 推荐(0) 编辑

Flink执行图

摘要：Flink的代码编写流程为env->source->transform->sink，基本所有的代码都是大致按照图1的流程进行代码编写，当然中间也会有一些封装之类的。 Flink代码写好后，它的任务调度执行图按照生成顺序分为:逻辑流图(StreamGraph)->作业图（JobGraph）->执行图( 阅读全文

posted @ 2024-05-15 15:33 人不疯狂枉一生阅读(72) 评论(0) 推荐(0) 编辑

kafka数据一致性

摘要：kafka作为商业级中间件，它在设计时优先考虑的可靠性、可用性，同时兼顾一致性，这是所有分布式都会遇到的cap理论，kafka也不例外；可靠性通过副本机制解决，可用性通过leader和follower机制来解决。 kafka的可靠性，根据ack的设置不同，可靠性不同，ack=-1可靠性最高，但效率会阅读全文

posted @ 2024-05-14 14:33 人不疯狂枉一生阅读(191) 评论(0) 推荐(0) 编辑

Kafka存储机制

摘要：Kafka之所以有那么高的吞吐量，很大程度取决于它的存储机制，一个主题可以有多个partition，每个partition有一个leader和多个副本，读写主要通过leader，副本的主要功能还是为了保证数据的安全性和保证可靠性，当某个partition的leader出现异常后，剩余副本可以选举出新阅读全文

posted @ 2024-05-09 10:39 人不疯狂枉一生阅读(37) 评论(0) 推荐(0) 编辑

人不疯狂枉一生

05 2024 档案

公告

搜索

常用链接

我的标签

积分与排名

合集

随笔分类

随笔档案

文章分类

阅读排行榜

推荐排行榜