摘要: 论文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf 代码链接: https://github.com/haotian 阅读全文
posted @ 2024-06-30 21:27 沐沐mu 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 研究问题 1.作者认为LLM(GPT-4、Gemini)已经很先进了,视觉模态的大模型于LLM性能之间存在gap。 2. 对于视觉自身,图像分辨率是一个核心因素,但是提高分辨率对计算性能和cost有要求。 综上所述,作者希望“how to push forward the VLMs approach 阅读全文
posted @ 2024-06-29 21:36 沐沐mu 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 首先,什么是多模态,自然界中视觉、听觉、嗅觉、味觉、触觉、文字等都是表示物体的一种模态信息。我们大脑中也有对不同模态信息的感受区域。 那什么是多模态学习?我的理解是通过大脑中不同模态的感受器,获取多模态信息,再由大脑中的决策区域,学习实现识别、理解、甚至推理、表达、行动等操作。 Baltrušait 阅读全文
posted @ 2022-11-13 22:22 沐沐mu 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 必看:https://colah.github.io/posts/2015-08-Understanding-LSTMs/ RNN(Recurrent) 前馈神经网络:https://www.cnblogs.com/mumuzeze/p/16883851.html 前馈网络的输入\(x_1,x_2, 阅读全文
posted @ 2022-11-13 15:20 沐沐mu 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-11-13 14:29 沐沐mu 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归 在线性回归的基础上,套用sigmoid等平滑函数,将线性回归的结果映射成事件的概率。 值得注意的是线性回归的结果可以是任意大小的数值,所以它可以被用于预测任务中,如预测股票价格。而逻辑回归的结果只能在(0,1)之间,也就是一个事件可能发生的概率,所以更多的被应用在分类任务上,比如股票是否该 阅读全文
posted @ 2022-11-12 15:34 沐沐mu 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 前馈神经网络(Feed-forward Neural Networks),又称多层感知机(MLP)。 收到生物神经科学的启发,是深度学习中的重要组成部分。它是一个函数\(f(\cdot)\),接收输入\(x\),输出结果\(y\)。 神经网络中最基本的单位就是神经元,它将前一层网络中所有神经元的输出 阅读全文
posted @ 2022-11-12 15:17 沐沐mu 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 线性回归 回归和分类: 两者都是通过一堆数据训练模型,如果数据是连续性的则是回归问题,如果数据是离散性的则是分类问题。 回归: 通过一堆点,找一条尽可能再所有点中间的线 线性: 直线 (y=ax+b,参数: a和b) $y= \theta_1x_1 + \theta_2x_2+...+\theta_ 阅读全文
posted @ 2022-11-12 14:55 沐沐mu 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 在机器学习中,我们一直期望学习一个`泛化能力(generalization)强的函数`只有泛化能力强的模型才能很好地适用于整个样本空间,才能在新的样本点上表现良好。 阅读全文
posted @ 2021-01-30 19:37 沐沐mu 阅读(909) 评论(1) 推荐(0) 编辑
摘要: 卷积神经网络之AlexNet 阅读全文
posted @ 2021-01-17 19:06 沐沐mu 阅读(170) 评论(0) 推荐(0) 编辑