会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
31
32
33
34
35
36
37
38
39
···
151
下一页
2025年3月13日
时间序列特征提取:18 种高效工具库及其应用分析
摘要: 时间序列特征提取是数据科学工作流程中的关键环节,能够将原始时间序列数据转化为具有分析价值的特征表示。本文详细介绍 18 种专业的 Python 库,这些库可用于从时间序列数据中提取关键特征,支持数据科学家进行更深入的分析与建模。 时间序列特征提取的理论基础与价值 时间序列特征是对时间序列数据的统计量
阅读全文
posted @ 2025-03-13 14:43 deephub
阅读(82)
评论(0)
推荐(0)
2025年3月12日
SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器
摘要: SigLIP 2 是一个新型多语言视觉-语言编码器系列,通过整合基于字幕的预训练、自监督学习机制(包括自蒸馏和掩码预测)以及在线数据管理策略,对原始 SigLIP 模型进行了显著改进。这些优化使 SigLIP 2 在零样本分类、图像-文本检索以及为视觉语言模型(VLM)提供视觉表示提取方面均取得了卓
阅读全文
posted @ 2025-03-12 10:06 deephub
阅读(279)
评论(0)
推荐(0)
2025年3月11日
FANformer:融合傅里叶分析网络的大语言模型基础架构
摘要: 近期大语言模型(LLM)的基准测试结果引发了对现有架构扩展性的思考。尽管OpenAI推出的GPT-4.5被定位为其最强大的聊天模型,但在多项关键基准测试上的表现却不及某些规模较小的模型。DeepSeek-V3在AIME 2024评测中达到了39.2%的Pass@1准确率,在SWE-bench Ver
阅读全文
posted @ 2025-03-11 11:30 deephub
阅读(57)
评论(0)
推荐(0)
2025年3月10日
S3FT选择性自监督微调:通过智能选择训练样本提升大模型整体表现
摘要: 选择性自我监督微调(Selective Self-to-Supervised Fine-Tuning,S3FT)是一种创新的大语言模型微调方法,该方法通过部署专门的语义等价性判断器来识别训练集中模型自身生成的正确响应。在微调过程中,S3FT策略性地结合这些正确响应与剩余样本的标准答案(或其释义版本)
阅读全文
posted @ 2025-03-10 09:56 deephub
阅读(37)
评论(0)
推荐(0)
2025年3月9日
大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究
摘要: 在LLama等大规模Transformer架构的语言模型中,归一化模块是构建网络稳定性的关键组件。本文将系统分析归一化技术的必要性,并详细阐述为何原始Transformer架构中的LayerNorm在LLama模型中被RMSNorm所替代的技术原理。 https://avoid.overfit.cn
阅读全文
posted @ 2025-03-09 10:27 deephub
阅读(97)
评论(0)
推荐(0)
2025年3月8日
NeoBERT:4096 tokens上下文窗口,参数更少但性能翻倍
摘要: NeoBERT代表了双向编码器模型的新一代技术发展,通过整合前沿架构改进、现代大规模数据集和优化的预训练策略,有效缩小了传统编码器与高性能自回归语言模型之间的性能差距。该模型在支持4096 tokens的扩展上下文窗口的同时,仅维持250M参数规模的紧凑设计。值得注意的是,尽管参数量较小,NeoBE
阅读全文
posted @ 2025-03-08 10:01 deephub
阅读(48)
评论(0)
推荐(0)
2025年3月7日
Chain of Draft: 借鉴人类草稿思维让大型语言模型更快地思考
摘要: 这个研究探讨了大型语言模型(LLMs)在执行复杂推理任务时面临的计算资源消耗与响应延迟问题。研究特别聚焦于思维链(Chain-of-Thought, CoT)提示范式的效率局限性。CoT虽然有效,但在推理过程中需要生成冗长、详尽的逐步推理,导致计算资源利用率低下且延迟显著增加。这与人类问题解决机制形
阅读全文
posted @ 2025-03-07 19:55 deephub
阅读(35)
评论(0)
推荐(0)
2025年3月6日
Visual-RFT:基于强化学习的视觉语言模型微调技术研究
摘要: Visual-RFT 代表了视觉语言模型微调领域的技术创新,通过将基于规则的可验证奖励与强化学习相结合,有效克服了传统监督微调 (SFT) 在数据稀缺场景下的局限性。本文将深入剖析 Visual-RFT 的技术原理,结合原始研究论文中的图表解释其架构设计,并探讨该方法在实际应用场景中的潜力。Visu
阅读全文
posted @ 2025-03-06 21:41 deephub
阅读(189)
评论(0)
推荐(0)
2025年3月5日
深入解析图神经网络注意力机制:数学原理与可视化实现
摘要: 在图神经网络(Graph Neural Networks, GNNs)的发展历程中,注意力机制扮演着至关重要的角色。通过赋予模型关注图中最相关节点和连接的能力,注意力机制显著提升了GNN在节点分类、链接预测和图分类等任务上的性能。尽管这一机制的重要性不言而喻,但其内部工作原理对许多研究者和工程师而言
阅读全文
posted @ 2025-03-05 10:20 deephub
阅读(97)
评论(0)
推荐(0)
2025年3月4日
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
摘要: 在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过程将文本分割成离散单元——即token,这些token构成了后续分析的基础,包括词嵌入(embedding)、语法解析和模型训练等多个环节。从历史视角来看
阅读全文
posted @ 2025-03-04 10:36 deephub
阅读(118)
评论(0)
推荐(0)
上一页
1
···
31
32
33
34
35
36
37
38
39
···
151
下一页
公告