deephub

2024年6月18日

摘要：现有的RAG解决方案可能因为最相关的文档的嵌入可能在嵌入空间中相距很远，这样会导致检索过程变得复杂并且无效。为了解决这个问题，论文引入了多头RAG (MRAG)，这是一种利用Transformer的多头注意层的激活而不是解码器层作为获取多方面文档的新方案。 MRAG 不是利用最后一个前馈解码器层为最阅读全文

posted @ 2024-06-18 10:24 deephub 阅读(68) 评论(0) 推荐(0)

2024年6月17日

MLOps模型部署的三种策略：批处理、实时、边缘计算

摘要：机器学习运维（MLOps）是一组用于自动化和简化机器学习（ML）工作流程和部署的实践。所选择的部署策略可以显著影响系统的性能和效用。所以需要根据用例和需求，采用不同的部署策略。在这篇文章中，我们将探讨三种常见的模型部署策略:批处理、实时和边缘计算。 https://avoid.overfit.cn/ 阅读全文

posted @ 2024-06-17 12:34 deephub 阅读(46) 评论(0) 推荐(0)

2024年6月16日

Pixel Transformer：用像素代替补丁可以提升图像分类精度

摘要：在快速发展的人工智能领域，ViTs已成为各种计算机视觉任务的基础模型。ViTs通过将图像划分为小块并将这些小块作为标记来处理图像。6月刚发布一篇论文，引入了一种新颖的方法，即像素级Transformers，它通过将单个像素视为令牌来挑战这种范式。本文将讨论Pixel Transformer的复杂性，阅读全文

posted @ 2024-06-16 09:56 deephub 阅读(90) 评论(0) 推荐(0)

2024年6月15日

SOFTS: 时间序列预测的最新模型以及Python使用示例

摘要：近年来，深度学习一直在时间序列预测中追赶着提升树模型，其中新的架构已经逐渐为最先进的性能设定了新的标准。这一切都始于2020年的N-BEATS，然后是2022年的NHITS。2023年，PatchTST和TSMixer被提出，最近的iTransformer进一步提高了深度学习预测模型的性能。这是阅读全文

posted @ 2024-06-15 10:50 deephub 阅读(363) 评论(0) 推荐(0)

2024年6月14日

使用‘消除’技术绕过LLM的安全机制，不用训练就可以创建自己的nsfw模型

摘要：开源的大模型在理解和遵循指令方面都表现十分出色。但是这些模型都有审查的机制，在获得被认为是有害的输入的时候会拒绝执行指令，例如会返回“As an AI assistant, I cannot help you.”。这个安全功能对于防止误用至关重要，但它限制了模型的灵活性和响应能力。在本文中，我们将阅读全文

posted @ 2024-06-14 10:21 deephub 阅读(968) 评论(0) 推荐(0)

2024年6月13日

通过元学习优化增益模型的性能：基础到高级应用总结

摘要：在当今数据驱动的决策过程中，因果推断和增益模型扮演了至关重要的角色。因果推断帮助我们理解不同变量间的因果关系，而增益模型则专注于评估干预措施对个体的影响，从而优化策略和行动。然而，要提高这些模型的精确度和适应性，引入元学习器成为了一个创新的解决方案。元学习器通过将估计任务分解并应用不同的机器学习技术阅读全文

posted @ 2024-06-13 10:50 deephub 阅读(47) 评论(0) 推荐(0)

2024年6月12日

使用PyTorch Profiler进行模型性能分析，改善并加速PyTorch训练

摘要：如果所有机器学习工程师都想要一样东西，那就是更快的模型训练——也许在良好的测试指标之后加速机器学习模型训练是所有机器学习工程师想要的一件事。更快的训练等于更快的实验，更快的产品迭代，还有最重要的一点需要更少的资源，也就是更省钱。熟悉PyTorch Profiler 然后就可以启动tensorbo 阅读全文

posted @ 2024-06-12 12:06 deephub 阅读(109) 评论(0) 推荐(0)

2024年6月11日

Tiny Time Mixers (TTM)轻量级时间序列基础模型：无需注意力机制，并且在零样本预测方面表现出色

摘要：大语言模型的发展让研究人员专注于建立尽可能大的模型。但是其实较小的模型在某些任务中表现会优于较大的模型时，例如：Llama 3-8B在MMLU任务上的表现优于较大的Llama 2-70B ! 这就说明大模型并不是万能的，在一些特定任务中，小模型表现得可能会更出色。所以IBM的研究人员就推出了一个轻量阅读全文

posted @ 2024-06-11 11:15 deephub 阅读(168) 评论(0) 推荐(0)

2024年6月10日

如何应对缺失值带来的分布变化？探索填充缺失值的最佳插补算法

摘要：本文将探讨了缺失值插补的不同方法，并比较了它们在复原数据真实分布方面的效果，处理插补是一个不确定性的问题，尤其是在样本量较小或数据复杂性高时的挑战，应选择能够适应数据分布变化并准确插补缺失值的方法。我们假设存在一个潜在的分布P，从中得出观察值X。此外，还绘制了一个与X相同维数的0/1向量，我们称这阅读全文

posted @ 2024-06-10 12:12 deephub 阅读(140) 评论(0) 推荐(0)

2024年6月9日

数据并非都是正态分布：三种常见的统计分布及其应用

摘要：你有没有过这样的经历？使用一款减肥app，通过它的图表来监控自己的体重变化，并预测何时能达到理想体重。这款app预测我需要八年时间才能恢复到大学时的体重，这种不切实际的预测是因为应用使用了简单的线性模型来进行体重预测。这个模型将我所有过去的体重数据进行平均处理，然后绘制一条直线预测未来的体重变化。然阅读全文

posted @ 2024-06-09 10:33 deephub 阅读(59) 评论(0) 推荐(0)

overfit深度学习

公告