deephub

2024年2月25日

PHATGOOSE：使用LoRA Experts创建低成本混合专家模型实现零样本泛化

摘要：这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE)，这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法这个方法冻结整个模型，包括PEFT 阅读全文

posted @ 2024-02-25 20:17 deephub 阅读(16) 评论(0) 推荐(0) 编辑

2024年2月24日

20个改善编码的Python异常处理技巧，让你的代码更高效

摘要：异常处理是写好代码的一个重要的方面，虽然许多开发人员都熟悉基本的try-except块，但是有很多更深入的知识可以使异常处理更高效、更可读和更python化。所以本文将介绍关于Python异常的20个可以显著改善编码的Python异常处理技巧，这些技巧可以让你熟练的掌握Python的异常处理。 Py 阅读全文

posted @ 2024-02-24 10:26 deephub 阅读(13) 评论(0) 推荐(0) 编辑

2024年2月23日

Mamba详细介绍和RNN、Transformer的架构可视化对比

摘要： Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm，人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba（一种状态空间模型）。 Mamba: Linear-Time Sequence Modeling with S 阅读全文

posted @ 2024-02-23 10:53 deephub 阅读(371) 评论(0) 推荐(0) 编辑

2024年2月22日

LiRank: LinkedIn在2月新发布的大规模在线排名模型

摘要： LiRank是LinkedIn在2月份刚刚发布的论文，它结合了最先进的建模架构和优化技术，包括残差DCN、密集门控模块和Transformers。它引入了新的校准方法，并使用基于深度学习的探索/利用策略来优化模型，并且通过压缩技术，如量化和词表压缩，实现了高效部署。 LinkedIn将其应用于Fee 阅读全文

posted @ 2024-02-22 11:22 deephub 阅读(2) 评论(0) 推荐(0) 编辑

2024年2月21日

深度学习在时间序列预测的总结和未来方向分析

摘要： 2023年是大语言模型和稳定扩散的一年，时间序列领域虽然没有那么大的成就，但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer) 阅读全文

posted @ 2024-02-21 12:26 deephub 阅读(57) 评论(0) 推荐(0) 编辑

2024年2月20日

视频生成领域的发展概述:从多级扩散到LLM

摘要： 2023年是语言模型(llm)和图像生成技术激增的一年，但是视频生成受到的关注相对较少。今年刚到2月份，OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露，但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。在这篇文章中，我们将整理视频生成在最近几年是发展概况，模型阅读全文

posted @ 2024-02-20 12:06 deephub 阅读(28) 评论(0) 推荐(0) 编辑

2024年2月19日

4张图片就可以微调扩散模型

摘要：稳定扩散模型因其从文本描述生成高质量、多样化图像的能力而获得了极大的关注。但是这些预训练模型在生成高度定制或个性化主题的图像时可能会有所不足。这时就需要我们进行手动的微调。微调可以根据相对较小的图像集向模型教授新的、独特的主题。我们今天使用DreamBooth在不影响模型原始功能的情况下实现微调过阅读全文

posted @ 2024-02-19 11:33 deephub 阅读(37) 评论(0) 推荐(0) 编辑

2024年2月18日

自然语言生成任务中的5种采样方法介绍和Pytorch代码实现

摘要：在自然语言生成任务（NLG）中，采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。束搜索（Beam Search）是贪婪解码的一种扩展，通过在每个时间步保留多个候选序列来克服贪婪解码的局部最优问题。在每个时间步保留概率最高的前几个候选词语，然后在阅读全文

posted @ 2024-02-18 10:47 deephub 阅读(15) 评论(0) 推荐(0) 编辑

2024年2月17日

机器学习中7种常用的线性降维技术总结

摘要：上篇文章中我们主要总结了非线性的降维技术，本文我们来总结一下常见的线性降维技术。 1、Principal Component Analysis (PCA) Principal Component Analysis (PCA) 是一种常用的降维技术，用于将高维数据集转换为低维表示，同时保留数据集的主要阅读全文

posted @ 2024-02-17 10:13 deephub 阅读(26) 评论(0) 推荐(0) 编辑

2024年2月16日

机器学习中的10种非线性降维技术对比总结

摘要：降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量，降维算法属于无监督学习的范畴，用未标记的数据训练算法。尽管降维方法种类繁多，但它们都可以归为两大类:线性和非线性。线性方法将数据从高维空间线性投影到低维空间(因此称为线性投影)。例子包括PCA和LDA。非线性方法提供了一种执行非线性阅读全文

posted @ 2024-02-16 13:17 deephub 阅读(44) 评论(0) 推荐(0) 编辑

overfit深度学习

公告