02 2024 档案

摘要:谷歌的最新的Gemma模型是第一个使用与Gemini模型相同的研究和技术构建的开源LLM。这个系列的模型目前有两种尺寸,2B和7B,并且提供了聊天的基本版和指令版。 用一句话来总结Gemma就是:学习了Llama 2和Mistral 7B的优点,使用了更多的Token和单词进行了训练了一个更好的7B 阅读全文
posted @ 2024-02-29 10:54 deephub 阅读(195) 评论(0) 推荐(0) 编辑
摘要:我们这篇文章将推荐2月份发布的10篇深度学习的论文 Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping. https://arxiv.org/abs/2402.14083 Searchforme 阅读全文
posted @ 2024-02-28 10:48 deephub 阅读(51) 评论(0) 推荐(0) 编辑
摘要:时间序列分析是数据科学的重要组成部分,特别是在金融、经济、天气预报等领域。它包括分析随时间收集或索引的数据点,以确定趋势、周期或季节变化。由于时间序列数据的复杂性所以分析时间序列需要复杂统计方法,我最近在Github上发现了一个刚刚发布不久的Python时间工具包PyTimeTK ,它可以帮我们简化 阅读全文
posted @ 2024-02-27 09:39 deephub 阅读(32) 评论(0) 推荐(0) 编辑
摘要:OpenAI最近发布了他们的新一代嵌入模型embedding v3,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。 这些模型的设计和训练 阅读全文
posted @ 2024-02-26 10:22 deephub 阅读(88) 评论(0) 推荐(0) 编辑
摘要:这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE),这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法 这个方法冻结整个模型,包括PEFT 阅读全文
posted @ 2024-02-25 20:17 deephub 阅读(26) 评论(0) 推荐(0) 编辑
摘要:异常处理是写好代码的一个重要的方面,虽然许多开发人员都熟悉基本的try-except块,但是有很多更深入的知识可以使异常处理更高效、更可读和更python化。所以本文将介绍关于Python异常的20个可以显著改善编码的Python异常处理技巧,这些技巧可以让你熟练的掌握Python的异常处理。 Py 阅读全文
posted @ 2024-02-24 10:26 deephub 阅读(15) 评论(0) 推荐(0) 编辑
摘要:Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。 Mamba: Linear-Time Sequence Modeling with S 阅读全文
posted @ 2024-02-23 10:53 deephub 阅读(392) 评论(0) 推荐(0) 编辑
摘要:LiRank是LinkedIn在2月份刚刚发布的论文,它结合了最先进的建模架构和优化技术,包括残差DCN、密集门控模块和Transformers。它引入了新的校准方法,并使用基于深度学习的探索/利用策略来优化模型,并且通过压缩技术,如量化和词表压缩,实现了高效部署。 LinkedIn将其应用于Fee 阅读全文
posted @ 2024-02-22 11:22 deephub 阅读(2) 评论(0) 推荐(0) 编辑
摘要:2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer) 阅读全文
posted @ 2024-02-21 12:26 deephub 阅读(72) 评论(0) 推荐(0) 编辑
摘要:2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。 在这篇文章中,我们将整理视频生成在最近几年是发展概况,模型 阅读全文
posted @ 2024-02-20 12:06 deephub 阅读(31) 评论(0) 推荐(0) 编辑
摘要:稳定扩散模型因其从文本描述生成高质量、多样化图像的能力而获得了极大的关注。但是这些预训练模型在生成高度定制或个性化主题的图像时可能会有所不足。 这时就需要我们进行手动的微调。微调可以根据相对较小的图像集向模型教授新的、独特的主题。我们今天使用DreamBooth在不影响模型原始功能的情况下实现微调过 阅读全文
posted @ 2024-02-19 11:33 deephub 阅读(55) 评论(0) 推荐(0) 编辑
摘要:在自然语言生成任务(NLG)中,采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。 束搜索(Beam Search)是贪婪解码的一种扩展,通过在每个时间步保留多个候选序列来克服贪婪解码的局部最优问题。 在每个时间步保留概率最高的前几个候选词语,然后在 阅读全文
posted @ 2024-02-18 10:47 deephub 阅读(22) 评论(0) 推荐(0) 编辑
摘要:上篇文章中我们主要总结了非线性的降维技术,本文我们来总结一下常见的线性降维技术。 1、Principal Component Analysis (PCA) Principal Component Analysis (PCA) 是一种常用的降维技术,用于将高维数据集转换为低维表示,同时保留数据集的主要 阅读全文
posted @ 2024-02-17 10:13 deephub 阅读(33) 评论(0) 推荐(0) 编辑
摘要:降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。 尽管降维方法种类繁多,但它们都可以归为两大类:线性和非线性。 线性方法将数据从高维空间线性投影到低维空间(因此称为线性投影)。例子包括PCA和LDA。 非线性方法提供了一种执行非线性 阅读全文
posted @ 2024-02-16 13:17 deephub 阅读(54) 评论(0) 推荐(0) 编辑
摘要:2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月,已经有了一个用于时间序列预测的 阅读全文
posted @ 2024-02-15 09:45 deephub 阅读(147) 评论(0) 推荐(0) 编辑
摘要:在我们进行机器学习时,处理缺失数据是非常重要的,因为缺失数据可能会导致分析结果不准确,严重时甚至可能产生偏差。处理缺失数据是保证数据分析准确性和可靠性的重要步骤,有助于确保分析结果的可信度和可解释性。 在本文中,我们讲重点介绍MICE。 MICE(Multiple Imputation by Cha 阅读全文
posted @ 2024-02-14 10:16 deephub 阅读(70) 评论(0) 推荐(0) 编辑
摘要:模型微调是指在一个已经训练好的模型的基础上,针对特定任务或者特定数据集进行再次训练以提高性能的过程。微调可以在使其适应特定任务时产生显着的结果。 RoBERTa(Robustly optimized BERT approach)是由Facebook AI提出的一种基于Transformer架构的预训 阅读全文
posted @ 2024-02-13 11:58 deephub 阅读(171) 评论(0) 推荐(0) 编辑
摘要:异常值检测各个领域的关键任务之一。PyOD是Python Outlier Detection的缩写,可以简化多变量数据集中识别异常值的过程。在本文中,我们将介绍PyOD包,并通过实际给出详细的代码示例 https://avoid.overfit.cn/post/9df020be7be84d759ae 阅读全文
posted @ 2024-02-12 10:54 deephub 阅读(89) 评论(0) 推荐(0) 编辑
摘要:大型语言模型(LLMs)如 GPT-4 已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs 的推理过程也缺乏透明度,使用户难以理解达成结论的方式。 检索增强生成(RAG)在 LLMS 的工作流程中添加了一个检索步骤, 阅读全文
posted @ 2024-02-11 10:23 deephub 阅读(31) 评论(0) 推荐(0) 编辑
摘要:人工智能(AI)不再只是一个流行词,它已成为我们日常生活的重要组成部分。人工智能在去年深入地融入我们社会的各个方面,改变我们的生活方式、工作方式以及与技术互动的方式。 今年是大年初一,我们将探讨2024年可能出现的十大人工智能创新,拥抱这些即将到来的人工智能创新,可以为一个充满激动和变革的未来做好准 阅读全文
posted @ 2024-02-10 14:06 deephub 阅读(40) 评论(0) 推荐(0) 编辑
摘要:LLM在在2023年发展的风生水起,一个围绕LLM的庞大生态系统正在形成,本文通过介绍这个生态系统的核心组成部分,来详细整理LLM的发展。 https://avoid.overfit.cn/post/e320df1e77624fbbb6f84c5b5c2dc351 阅读全文
posted @ 2024-02-09 10:58 deephub 阅读(31) 评论(0) 推荐(0) 编辑
摘要:人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。 本文的将提供利用AI语音克隆技术-通过训练自定义模型将任何音频转换为选定 阅读全文
posted @ 2024-02-08 10:46 deephub 阅读(131) 评论(0) 推荐(0) 编辑
摘要:视觉和语言模型的交叉导致了人工智能的变革性进步,使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。 MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据,实现对多媒体内容的复杂理解和交互。为增强LVL 阅读全文
posted @ 2024-02-07 10:35 deephub 阅读(55) 评论(0) 推荐(0) 编辑
摘要:本文将深入研究嵌入、矢量数据库和各种距离度量的概念,并提供示例和演示代码。 NLP中的嵌入 嵌入是连续向量空间中对象、单词或实体的数值表示。在NLP中,词嵌入捕获词之间的语义关系,使算法能够更好地理解文本的上下文和含义。 https://avoid.overfit.cn/post/8c9ee01ac 阅读全文
posted @ 2024-02-06 10:19 deephub 阅读(30) 评论(0) 推荐(0) 编辑
摘要:PyTorch是一个基于python的科学计算包。它的灵活性允许轻松集成新的数据类型和算法,并且框架也是高效和可扩展的,下面我们将介绍一些Pytorch的基本张量操作。 https://avoid.overfit.cn/post/3d344b08f8c1454b869ba222079e4ea7 阅读全文
posted @ 2024-02-05 10:52 deephub 阅读(19) 评论(0) 推荐(0) 编辑
摘要:Barnett等人的论文《Seven Failure Points When Engineering a Retrieval Augmented Generation System》介绍了RAG的七个痛点,我们将其延申扩展再补充开发RAG流程中常遇到的另外五个常见问题。并且将深入研究这些RAG痛点的 阅读全文
posted @ 2024-02-03 10:31 deephub 阅读(96) 评论(0) 推荐(0) 编辑
摘要:Pandas是我们最常用的数据处理Python库之一。尽管您可能已经与它共事多年,但可能还有许多您尚未探索的实用方法。我将向您展示一些可能未曾听说但在数据整理方面非常实用的方法。 我目前日常使用的是pandas 2.2.0,这是本文时可用的最新版本。 https://avoid.overfit.cn 阅读全文
posted @ 2024-02-02 10:49 deephub 阅读(61) 评论(0) 推荐(0) 编辑
摘要:RAG领域已经取得了相当大的发展,这篇论文的是如何分解RAG过程,加入多文件检索、记忆和个人信息等定制化的元素。 大型语言模型(llm)在自然语言任务中表现出色,但在对话系统中的个性化和上下文方面面临挑战。这个研究提出了一个统一的多源检索-增强生成系统(UniMS-RAG),通过将任务分解为知识来源 阅读全文
posted @ 2024-02-01 09:59 deephub 阅读(66) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示