deephub

2025年4月5日

摘要：随着NVIDIA不断推出基于新架构的GPU产品，机器学习框架需要相应地更新以支持这些硬件。本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题，并详细分析了问题根源及其解决方案，以期为遇到类似情况的开发者提供参考。在Anaconda虚拟环境（"development"）阅读全文

posted @ 2025-04-05 19:58 deephub 阅读(848) 评论(0) 推荐(0)

2025年4月4日

FlashTokenizer: 基于C++的高性能分词引擎，速度可以提升8-15倍

摘要：随着大型语言模型（LLMs）和基于人工智能的应用程序在各行业的广泛部署，对自然语言处理（NLP）工具性能的要求日益提高。分词处理作为NLP流程中的基础环节，对整体推理性能有着决定性影响。分词过程的计算效率直接关系到模型处理文本的速度和资源消耗。在此技术背景下出现了FlashTokenizer，这是一阅读全文

posted @ 2025-04-04 19:18 deephub 阅读(23) 评论(0) 推荐(0)

2025年4月3日

计算加速技术比较分析：GPU、FPGA、ASIC、TPU与NPU的技术特性、应用场景及产业生态

摘要：在计算技术快速迭代的今天，传统通用处理器(CPU)正逐步被专用硬件加速器补充或替代，尤其在特定计算领域。这些加速器通过针对性设计，在功耗效率、计算吞吐量(FLOPS)和内存带宽方面实现了显著优化。截至2025年4月，加速器市场需求呈指数级增长，主要驱动因素来自人工智能(AI)、机器学习(ML)、高性阅读全文

posted @ 2025-04-03 09:58 deephub 阅读(173) 评论(0) 推荐(0)

2025年4月2日

标签噪声下的模型评估：如何准确评估AI模型的真实性能，提高模型性能测量的可信度

摘要：真实标签的不完美性是机器学习领域一个不可避免的挑战。从科学测量数据到深度学习模型训练中的人工标注，真实标签总是包含一定比例的错误。即使像ImageNet这样精心策划的图像数据集，其人工标注的错误率仍达0.3%。在这种情况下，如何准确评估预测模型的性能就成为一个关键问题。本文将深入探讨如何在考虑测试数阅读全文

posted @ 2025-04-02 12:12 deephub 阅读(48) 评论(0) 推荐(0)

2025年4月1日

VideoMind：Chain-of-LoRA突破时间盲区让AI真正看懂长视频

摘要：视频作为一种富含信息且密集的媒介，已广泛应用于娱乐、社交媒体、安全监控和自动驾驶等领域。人类能够轻松理解视频内容，例如理解因果关系、定位特定时刻以及关联动作。但是人工智能，尤其是大型语言模型（LLM）及其多模态（MLLM）变体，在视频理解方面仍然面临挑战，尤其是在处理长视频时。尽管像 GPT-4V 阅读全文

posted @ 2025-04-01 10:00 deephub 阅读(62) 评论(0) 推荐(0)

2025年3月31日

9个主流GAN损失函数的数学原理和Pytorch代码实现：从经典模型到现代变体

摘要：生成对抗网络(GANs)的训练效果很大程度上取决于其损失函数的选择。本研究首先介绍经典GAN损失函数的理论基础，随后使用PyTorch实现包括原始GAN、最小二乘GAN(LS-GAN)、Wasserstein GAN(WGAN)及带梯度惩罚的WGAN(WGAN-GP)在内的多种损失函数。生成对抗网络阅读全文

posted @ 2025-03-31 10:43 deephub 阅读(68) 评论(0) 推荐(0)

2025年3月30日

DAPO: 面向开源大语言模型的解耦裁剪与动态采样策略优化系统

摘要：在人工智能技术快速迭代发展的背景下，大语言模型（LLMs）已成为自然语言处理与生成领域的核心技术。然而，将这些模型与人类偏好精确对齐并增强其复杂推理能力的挑战，促使研究者开发了一系列复杂的强化学习（RL）技术。DAPO（解耦裁剪和动态采样策略优化，Decoupled Clip and Dynamic 阅读全文

posted @ 2025-03-30 10:41 deephub 阅读(246) 评论(0) 推荐(0)

2025年3月29日

多模态AI核心技术：CLIP与SigLIP技术原理与应用进展

摘要：近年来，人工智能领域在多模态表示学习方面取得了显著进展，这类模型通过统一框架理解并整合不同数据类型间的语义信息，特别是图像与文本之间的关联性。在此领域具有里程碑意义的模型包括OpenAI提出的CLIP（Contrastive Language-Image Pre-training，对比语言-图像预训阅读全文

posted @ 2025-03-29 10:14 deephub 阅读(206) 评论(0) 推荐(0)

2025年3月28日

SWEET-RL：基于训练时信息的多轮LLM代理强化学习框架

摘要： SWEET-RL（Step-WisE Evaluation from Training-time information，基于训练时信息的逐步评估）是多轮大型语言模型（LLM）代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法，成功率提升了6%，使Llama-3.1-8B等小型开源模型能够阅读全文

posted @ 2025-03-28 09:48 deephub 阅读(124) 评论(0) 推荐(0)

2025年3月27日

时间序列异常检测：MSET-SPRT组合方法的原理和Python代码实现

摘要：在异常检测领域，尤其针对工业机械、核反应堆和网络安全等复杂系统，传统方法往往难以有效处理高维度且相互关联的数据流。多元状态估计技术(MSET) 与序贯概率比检验(SPRT) 的组合方法在此类场景中展现出显著优势。 MSET-SPRT是一种结合机器学习状态估计与统计假设检验的混合技术框架，通过其高精度阅读全文

posted @ 2025-03-27 10:24 deephub 阅读(81) 评论(0) 推荐(0)

overfit深度学习

公告