deephub

2024年6月15日

摘要：近年来，深度学习一直在时间序列预测中追赶着提升树模型，其中新的架构已经逐渐为最先进的性能设定了新的标准。这一切都始于2020年的N-BEATS，然后是2022年的NHITS。2023年，PatchTST和TSMixer被提出，最近的iTransformer进一步提高了深度学习预测模型的性能。这是阅读全文

posted @ 2024-06-15 10:50 deephub 阅读(282) 评论(0) 推荐(0)

2024年6月14日

使用‘消除’技术绕过LLM的安全机制，不用训练就可以创建自己的nsfw模型

摘要：开源的大模型在理解和遵循指令方面都表现十分出色。但是这些模型都有审查的机制，在获得被认为是有害的输入的时候会拒绝执行指令，例如会返回“As an AI assistant, I cannot help you.”。这个安全功能对于防止误用至关重要，但它限制了模型的灵活性和响应能力。在本文中，我们将阅读全文

posted @ 2024-06-14 10:21 deephub 阅读(742) 评论(0) 推荐(0)

2024年6月13日

通过元学习优化增益模型的性能：基础到高级应用总结

摘要：在当今数据驱动的决策过程中，因果推断和增益模型扮演了至关重要的角色。因果推断帮助我们理解不同变量间的因果关系，而增益模型则专注于评估干预措施对个体的影响，从而优化策略和行动。然而，要提高这些模型的精确度和适应性，引入元学习器成为了一个创新的解决方案。元学习器通过将估计任务分解并应用不同的机器学习技术阅读全文

posted @ 2024-06-13 10:50 deephub 阅读(26) 评论(0) 推荐(0)

2024年6月12日

使用PyTorch Profiler进行模型性能分析，改善并加速PyTorch训练

摘要：如果所有机器学习工程师都想要一样东西，那就是更快的模型训练——也许在良好的测试指标之后加速机器学习模型训练是所有机器学习工程师想要的一件事。更快的训练等于更快的实验，更快的产品迭代，还有最重要的一点需要更少的资源，也就是更省钱。熟悉PyTorch Profiler 然后就可以启动tensorbo 阅读全文

posted @ 2024-06-12 12:06 deephub 阅读(84) 评论(0) 推荐(0)

2024年6月11日

Tiny Time Mixers (TTM)轻量级时间序列基础模型：无需注意力机制，并且在零样本预测方面表现出色

摘要：大语言模型的发展让研究人员专注于建立尽可能大的模型。但是其实较小的模型在某些任务中表现会优于较大的模型时，例如：Llama 3-8B在MMLU任务上的表现优于较大的Llama 2-70B ! 这就说明大模型并不是万能的，在一些特定任务中，小模型表现得可能会更出色。所以IBM的研究人员就推出了一个轻量阅读全文

posted @ 2024-06-11 11:15 deephub 阅读(113) 评论(0) 推荐(0)

2024年6月10日

如何应对缺失值带来的分布变化？探索填充缺失值的最佳插补算法

摘要：本文将探讨了缺失值插补的不同方法，并比较了它们在复原数据真实分布方面的效果，处理插补是一个不确定性的问题，尤其是在样本量较小或数据复杂性高时的挑战，应选择能够适应数据分布变化并准确插补缺失值的方法。我们假设存在一个潜在的分布P，从中得出观察值X。此外，还绘制了一个与X相同维数的0/1向量，我们称这阅读全文

posted @ 2024-06-10 12:12 deephub 阅读(98) 评论(0) 推荐(0)

2024年6月9日

数据并非都是正态分布：三种常见的统计分布及其应用

摘要：你有没有过这样的经历？使用一款减肥app，通过它的图表来监控自己的体重变化，并预测何时能达到理想体重。这款app预测我需要八年时间才能恢复到大学时的体重，这种不切实际的预测是因为应用使用了简单的线性模型来进行体重预测。这个模型将我所有过去的体重数据进行平均处理，然后绘制一条直线预测未来的体重变化。然阅读全文

posted @ 2024-06-09 10:33 deephub 阅读(31) 评论(0) 推荐(0)

2024年6月8日

Block Transformer：通过全局到局部的语言建模加速LLM推理

摘要：在基于transformer的自回归语言模型（LMs）中，生成令牌的成本很高，这是因为自注意力机制需要关注所有之前的令牌，通常通过在自回归解码过程中缓存所有令牌的键值（KV）状态来解决这个问题。但是，加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。在这篇论文中，作者提阅读全文

posted @ 2024-06-08 10:05 deephub 阅读(20) 评论(0) 推荐(0)

2024年6月7日

CNN依旧能战：nnU-Net团队新研究揭示医学图像分割的验证误区，设定先进的验证标准与基线模型

摘要：这篇论文研究了在3D医学图像分割领近年引入了许多新的架构和方法，但大多数方法并没有超过2018年的原始nnU-Net基准。作者指出，许多关于新方法的优越性的声称在进行严格验证后并不成立，这揭示了当前在方法验证上存在的不严谨性。揭示验证短板：深入探讨了当前医学图像分割研究中存在的验证不足问题，特别是阅读全文

posted @ 2024-06-07 11:33 deephub 阅读(32) 评论(0) 推荐(0)

2024年6月6日

从提示工程到代理工程：构建高效AI代理的策略框架概述

摘要：自ChatGPT推出以来，仅仅一年多的时间里，公众对于“人工智能”（AI）的认识已经发生了根本性的变化。这种变化部分源于公众意识的提高，更多则是基于这样一个认识：AI驱动的系统不仅可能，而且可能已经具备了与人类相当的能力和表现。ChatGPT不仅是AI能力的一个验证，更是半个多世纪以来AI研究成果的阅读全文

posted @ 2024-06-06 11:38 deephub 阅读(18) 评论(0) 推荐(0)

overfit深度学习

公告