2024 年 6月 11 日随笔档案 - deephub

2024年6月11日

Tiny Time Mixers (TTM)轻量级时间序列基础模型：无需注意力机制，并且在零样本预测方面表现出色

摘要：大语言模型的发展让研究人员专注于建立尽可能大的模型。但是其实较小的模型在某些任务中表现会优于较大的模型时，例如：Llama 3-8B在MMLU任务上的表现优于较大的Llama 2-70B ! 这就说明大模型并不是万能的，在一些特定任务中，小模型表现得可能会更出色。所以IBM的研究人员就推出了一个轻量阅读全文

posted @ 2024-06-11 11:15 deephub 阅读(56) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告