随笔分类 - AI
人工智能 ,机器学习,深度学习
摘要:QLoRA是LoRA的量化版本,在LoRA的基础上,对权重W进行量化,如图2所示,以进一步减少对GPU显存的需求。 1、算法论文及代码 论文 《QLORA: Efficient Finetuning of Quantized LLMs》 https://arxiv.org/pdf/2305.1431
阅读全文
摘要:图1描述了LoRA微调的原理,即在原模型的基础上,建立一个旁支模型,旁支模型由A和B两个小矩阵构成,且A@B的维度等于原模型的维度。 图1 LoRA原理 图1的LoRA原理,也可写成式2的等式,权重W的新状态W’,为图10左路WFP16与右路A FP16@B FP16乘积之和,其中W、A、B的上标F
阅读全文
摘要:ChatGLM3是清华、智谱2023年开源的一款大模型。ChatGLM3-6B模型代码,目前还在研读中,尚未全部读完。 图1为ChatGLM3-6B模型简图,其结构基于Transformer Encoder架构的Encoder,大体上与BERT架构类似。ChatGLM3实现模型架构时,已预置支持P-
阅读全文
摘要:在2018年Google提出Transformer框架后,2019年,BERT作为最早期的大模型,便应运而生,因为BERT有强大的自然语言理解能力,因此在其被提出后便风靡NLP领域。 研读BERT代码,是因为BERT作为大模型起源鼻祖,比GPT起源还早,弄明白其算法思想和其主体代码具体实现逻辑,有利
阅读全文
摘要:Sora是OpenAI今年初推出的一款文生视频模型,相较于MidJourney这些传统AI绘图工具而言,Sora生成的视频时长更长,视频效果更逼真、更符合物理世界的客观规律。 Sora生成的视频可长达60s以上,较之前的文生视频模型只能生成2~3s视频而言,是个巨大的突破,从Sora官方公布的视频效
阅读全文
摘要:Stable Diffusion为实现文生图,引入了Conditioning模块,该模块用于接收图文等多种模态的数据,并将其编码为Embedding空间的向量,使得Stable Diffusion在训练和推理时,可以受到多模态数据设置的条件约束。Stable Diffusion中的Condition
阅读全文
摘要:图1描述了Stable Diffusion模型的发展历程,从最初的AE(Auto Encoder),逐步发展到DDPM、VQVAE、LDM,并最终产生了Stable Diffusion。从技术路线上看,Stable Diffusion由2条技术路线汇聚而成,一条是路线1:AE -> VAE -> D
阅读全文
摘要:为什么大模型相比中小模型,有更突出的性能和泛化能力,也许大多数人并没有想过这个问题,业内一般从函数曲线拟合的角度,来理解模型为什么能解决现实中的问题。 1、模型为什么越大,性能和泛化越好? 在AI领域,对需要解决的业务问题,将其视为满足一定条件的数据分布,先通过特征工程的方式,从业务问题中拆解出有哪
阅读全文
摘要:1、概述 无监督异常检测方法有重建类、特征类、流模型和教师学生网络这几种,之前了解过重建模型,重建模型大多采用VAE+Diffusion+Transformer类模型,对缺陷特征进行创建,本次总结主要分析特征类的鼻祖模型PatchCore,并找到其论文和源码,了解其工作原理的一些细节。 图1描述了P
阅读全文
摘要:物体检测、图像分割是CV领域的两大任务,尤其是物体检测,其在各个领域和AI比赛中,更是占有举足轻重的位置。 1、概述 图1描述了起源于图像分类的主要计算机视觉类任务。 图1 发源于图像分类的计算机视觉任务 为什么如此划分?因为在更早的时候,AI圈还停留在机器学习的时代,那时候的算法只有KNN、决策树
阅读全文
摘要:工业上的质检领域,是AI的一个重要应用方向,主要是计算机视觉CV的主攻方向。 图1描述了深度学习技术路线的发展简图,AI质检领域主要使用卷积神经网络(CNN)提取工业场景下的视频或图像特征,然后做分类、检测、分割、目标追踪等任务。 图1 深度学习技术发展简图 在工业场景下的分类、检测任务,其数据集特
阅读全文
摘要:GraphRAG工作的第一步,是将输入的文档集合,按一定的策略拆分成一个一个chunks,然后解析每个chunks,将chunk中所关注的实体(entity)和关系(relation)解析出来,以此构建知识图谱。 那问题来了,GraphRAG是如何抽取文本中的实体及其间的关系,是像以前NLP任务那样
阅读全文
摘要:RAG在大模型时代,被寄予了厚望,但在近一年多各大小公司的实施过程中,其效果远没有抖音中宣传的那么振奋人心,其原因是多方面的。这篇文章就RAG中的一个弱项--局部性来展开讨论。 一、RAG原理 图1描述了RAG的原理,用户输入了一个指令Instruct,RAG将其与Document store(向量
阅读全文
摘要:有了第九课SVD分解的基础,PCA降维的原理理解起来就比较容易了。 1、PCA降维原理 先回到SVD分解,对矩阵A进行SVD分解,得到下式: A = U * S * V 其中V是正交矩阵,即V*VT=E,对上式进行一下转化: A * VT = U * S * V * VT A * VT = U *
阅读全文
摘要:大学里的《线性代数》学过矩阵的加减乘法操作,计算起来也比较简单,比如现有矩阵A和B,取值如下: A是2*3的矩阵,B是3*2的矩阵,C很容易求得一个2*2的矩阵: 上面的计算过程,相信很多人都会,但现在的问题,如何求矩阵C由哪些矩阵相乘而得?这个问题估计会的人就不多了,其实这是一个矩阵分解的问题,也
阅读全文
摘要:市面上常用的机器学习算法,也就剩下KNN、朴素贝叶斯、决策树、随机森林这些算法了,这些算法各有优劣,适用不同的场景,没有谁能把所有其他的算法干掉而统一天下。 下面将通过准确率、耗时两个维度,来对比KNN、朴素贝叶斯、决策树、随机森林这几个算法的性能。 1、构建数据集,并拆分为训练集和测试集 调用Sk
阅读全文
摘要:1、算法概述 随机森林是一种集成学习方法,其理论基础是决策树。 随机森林由随机+森林两个词组成,这两个词非常精确的描述了随机森林算法的本质,随机说明了算法具有一定的随机性,体现在算法在选取数据集时,会随机从行和列两个方向筛选出子样本,比如图1和图2显示了随机森林两棵子树A和B所选取的数据集是不同的,
阅读全文
摘要:决策树(Decision Tree)是为数不多存活下来的机器学习算法之一,因其良好的性能和可解释性,被广泛应用于生产和生活当中。 1、决策树初体验 图1是一个女方是否决定相亲的决策树示例,通过年龄、长相、收入、职业四个维度进行决策判断,媒人同时介绍了两个男方,男方一:25岁、中等相貌、中等收入、IT
阅读全文
摘要:第一课、AI导论 (已更) 第二课、机器学习导论(已更) 第三课、特征工程(已更) 第四课、KNN最近邻算法(已更) 第五课、朴素贝叶斯算法(已更) 第六课、决策树(已更) 第七课、随机森林(已更) 第八课、常用机器学习算法性能对比(已更) 第九课、SVD分解(已更) 第十课、PCA降维(已更) 第
阅读全文
摘要:朴素贝叶斯算法是机器学习中目前一个还在使用的算法,其依托于贝叶斯公式的概率计算,可用于NLP等分类任务。朴素贝叶斯算法的朴素,是因为其有2个较强或较主观的前提假设: 样本间的特征(属性)是相互独立的 样本特征(属性)取值服从高斯(正态)分布 由于自然界的数据分布五花八门,给定一个数据集,但其服从什么
阅读全文