06 2022 档案

摘要:在本篇文章中,我们将讨论机器学习和深度学习的不同领域中的一个热门话题:零样本和少样本学习(Zero and Few Shot learning),它们在自然语言处理到计算机视觉中都有不同的应用场景。 少样本学习 在监督分类器中,所有的模型试图学习的是区分不同的对象的的特征,无论数据是什么形式存在的, 阅读全文
posted @ 2022-06-30 11:40 deephub 阅读(410) 评论(0) 推荐(0) 编辑
摘要:一般情况下我们在做数据预处理时都是使用StandardScaler来特征的标准化,如果你的数据中包含异常值,那么效果可能不好。 这里介绍的方法叫Robust Scaling,正如它的名字一样能够获得更健壮的特征缩放结果。与StandardScaler缩放不同,异常值根本不包括在Robust Scal 阅读全文
posted @ 2022-06-29 09:46 deephub 阅读(28) 评论(0) 推荐(0) 编辑
摘要:时间序列预测是基于时间数据进行预测的任务。它包括建立模型来进行观测,并在诸如天气、工程、经济、金融或商业预测等应用中推动未来的决策。 本文主要介绍时间序列预测并描述任何时间序列的两种主要模式(趋势和季节性)。并基于这些模式对时间序列进行分解。最后使用一个被称为Holt-Winters季节方法的预测模 阅读全文
posted @ 2022-06-28 11:15 deephub 阅读(251) 评论(0) 推荐(0) 编辑
摘要:来自Amazon,谷歌,Meta, Microsoft等的面试问题,本文接着昨天的文章整理了机器学习和深度学习的问题 机器学习 54、什么是机器学习? 机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有 阅读全文
posted @ 2022-06-27 10:55 deephub 阅读(191) 评论(0) 推荐(0) 编辑
摘要:来自Amazon,google,Meta, Microsoft等的面试问题,问题很多所以对问题进行了分类整理,本文包含基础知识和数据分析相关问题 基础知识 1、什么是数据科学?列出监督学习和非监督学习的区别。 数据科学是各种工具、算法和机器学习方法的混合,其目标是从原始数据中发现隐藏的模式。这与统计 阅读全文
posted @ 2022-06-26 13:08 deephub 阅读(229) 评论(0) 推荐(0) 编辑
摘要:BERT是一个著名的、强大的预先训练的“编码器”模型。让我们看看如何使用它作为“解码器”来形成编码器-解码器架构。 Transformer 架构由两个主要构建块组成——编码器和解码器——我们将它们堆叠在一起形成一个 seq2seq 模型。从头开始训练基于Transformer 的模型通常很困难,因为 阅读全文
posted @ 2022-06-25 10:38 deephub 阅读(373) 评论(0) 推荐(0) 编辑
摘要:比较一个变量在不同组中的分布是数据科学中的一个常见问题。当我们想要评估一项策略(用户体验功能、广告活动、药物等)的因果效应时,因果推断的黄金标准便是随机对照试验,也就是所谓的A /B测试。在实践中,我们为研究选择一个样本,并将其随机分为对照组(control group)和实验组(treatment 阅读全文
posted @ 2022-06-24 12:05 deephub 阅读(343) 评论(0) 推荐(0) 编辑
摘要:在评估模型时,虽然准确性是训练阶段模型评估和应用模型调整的重要指标,但它并不是模型评估的最佳指标,我们可以使用几个评估指标来评估我们的模型。 因为我们用于构建大多数模型的数据是不平衡的,并且在对数据进行训练时模型可能会过拟合。在本文中,我将讨论和解释其中的一些方法,并给出使用 Python 代码的示 阅读全文
posted @ 2022-06-23 11:58 deephub 阅读(9) 评论(0) 推荐(0) 编辑
摘要:在人类的语言中,单词的顺序和它们在句子中的位置是非常重要的。如果单词被重新排序后整个句子的意思就会改变,甚至可能变得毫无意义。 Transformers不像LSTM具有处理序列排序的内置机制,它将序列中的每个单词视为彼此独立。所以使用位置编码来保留有关句子中单词顺序的信息。 什么是位置编码? 位置编 阅读全文
posted @ 2022-06-22 11:44 deephub 阅读(128) 评论(0) 推荐(0) 编辑
摘要:主动学习是指对需要标记的数据进行优先排序的过程,这样可以确定哪些数据对训练监督模型产生最大的影响。 主动学习是一种学习算法可以交互式查询用户(teacher 或 oracle),用真实标签标注新数据点的策略。主动学习的过程也被称为优化实验设计。 主动学习的动机在于认识到并非所有标有标签的样本都同等重 阅读全文
posted @ 2022-06-21 11:51 deephub 阅读(292) 评论(0) 推荐(0) 编辑
摘要:你是否一直在使用你的损失函数来评估你的机器学习系统的性能?我相信有很多人也是这样做的,这是一个普遍存在的误解,因为人工智能中的程序默认设置、课程中介绍都是这样说的。 在本文中,我将解释为什么需要两个独立的模型评分函数来进行评估和优化……甚至还可能需要第三个模型评分函数来进行统计测试。 在整个数据科学 阅读全文
posted @ 2022-06-20 11:41 deephub 阅读(116) 评论(0) 推荐(0) 编辑
摘要:Curriculum Labeling (CL),在每个自训练周期之前重新启动模型参数,优于伪标签 (PL) Pseudo-Labeling (PL) 通过将伪标签应用于未标记集中的样本以在自训练周期中进行模型训练。Curriculum Labeling (CL)中,应用类似课程学习的原则,通过在每 阅读全文
posted @ 2022-06-19 13:10 deephub 阅读(79) 评论(0) 推荐(0) 编辑
摘要:将数据集分解为训练集,可以帮助我们了解模型,这对于模型如何推广到新的看不见数据非常重要。如果模型过度拟合可能无法很好地概括新的看不见的数据。因此也无法做出良好的预测。 拥有适当的验证策略是成功创建良好预测,使用AI模型的业务价值的第一步,本文中就整理出一些常见的数据拆分策略。 简单的训练、测试拆分 阅读全文
posted @ 2022-06-18 11:36 deephub 阅读(393) 评论(0) 推荐(0) 编辑
摘要:联合概率P(A∩B) 两个事件一起(或依次)发生的概率。 例如:掷硬币的概率是 ¹⁄₂ = 50%,翻转 2 个公平硬币的概率是 ¹⁄₂ × ¹⁄₂ = ¹⁄₄ = 25%(这也可以理解为 50% 的 50%) P(A ∩ B) = P(A) ⋅ P(B) 对于 2 个硬币,样本空间将是 4 {HH 阅读全文
posted @ 2022-06-17 12:36 deephub 阅读(369) 评论(0) 推荐(0) 编辑
摘要:龙与地下城(DND)于1974年发行第一版,现在所有RPG游戏都有它的影子,可以说它影响了全世界的RPG,对于RPG来说,最主要的一个特点就是有着不同类型的怪物,而我们可以通过《dungeon master guide》中提供的Challenge Rating(CR)公式来创建我们自己的怪物,因为我 阅读全文
posted @ 2022-06-16 11:53 deephub 阅读(236) 评论(0) 推荐(0) 编辑
摘要:1、Continual Learning for Visual Search with Backward Consistent Feature Embedding Timmy S. T. Wan, Jun-Cheng Chen, Tzer-Yi Wu, Chu-Song Chen https://a 阅读全文
posted @ 2022-06-15 11:58 deephub 阅读(70) 评论(0) 推荐(0) 编辑
摘要:在这篇文章中,将介绍如何为成功的面试做准备的,以及可以帮助我们面试的一些资源。 代码开发基础 如果你是数据科学家或软件开发人员,那么应该已经知道一些 Python 和 SQL 的基本知识,这对数据科学家的面试已经足够了,因为大多数的公司基本上是这样的——但是,在你的简历中加入 Spark 是一个很好 阅读全文
posted @ 2022-06-14 13:26 deephub 阅读(52) 评论(0) 推荐(0) 编辑
摘要:本篇文章将介绍如何将赛道的图像转换为语义分割后鸟瞰图的轨迹。 如下所示,输入图像为 输出: 总结来说我们的任务是获取输入图像,即前方轨道的前置摄像头视图,并构建一个鸟瞰轨道视图,而鸟瞰轨道视图会分割不同的颜色表示赛道和路面的边界。 仅仅从输入图像中提取出关于走向的信息是相当困难的,因为未来的许多轨道 阅读全文
posted @ 2022-06-13 10:53 deephub 阅读(10) 评论(0) 推荐(0) 编辑
摘要:在本文中,我将讨论一种新的半监督,多任务医学成像方法,称为Multimix,Ayana Haque(ME),Abdullah-Al-Zubaer Imran,Adam Wang、Demetri Terzopoulos。该论文在被ISBI 2021收录,并于4月的会议上发表。 MultiMix通过采用 阅读全文
posted @ 2022-06-12 12:01 deephub 阅读(196) 评论(0) 推荐(0) 编辑
摘要:在本文中,我们将深入研究超参数优化。 为了方便起见本文将使用 Tensorflow 中包含的 Fashion MNIST[1] 数据集。该数据集在训练集中包含 60,000 张灰度图像,在测试集中包含 10,000 张图像。每张图片代表属于 10 个类别之一的单品(“T 恤/上衣”、“裤子”、“套头 阅读全文
posted @ 2022-06-11 17:27 deephub 阅读(462) 评论(0) 推荐(0) 编辑
摘要:我们在训练和验证模型时都会将训练指标保存成起来制作成图表,这样可以在结束后进行查看和分析,但是你真的了解这些指标的图表的含义吗? 在本文中将对训练和验证可能产生的情况进行总结并介绍这些图表到底能为我们提供什么样的信息。 让我们从一些简单的代码开始,以下代码建立了一个基本的训练流程框架。 场景 1 - 阅读全文
posted @ 2022-06-10 10:58 deephub 阅读(106) 评论(0) 推荐(0) 编辑
摘要:ROC曲线和曲线下面积AUC被广泛用于评估二元分类器的性能。但是有时,基于精确召回曲线下面积 (AUPRC) 的测量来评估不平衡数据的分类却更为合适。 本文将详细比较这两种测量方法,并说明在AUPRC数据不平衡的情况下衡量性能时的优势 预备知识——计算曲线 我假设您熟悉准确率和召回率以及混淆矩阵的元 阅读全文
posted @ 2022-06-09 11:14 deephub 阅读(464) 评论(0) 推荐(0) 编辑
摘要:长短期记忆网络(通常称为“ LSTM”)是一种特殊的RNN,经过精心设计LSTM能够学习长期的依赖。正如他的名字,它可以学习长期和短期的依赖。 每个LSTM层都有四个门: Forget gate Input gate New cell state gate Output gate 下面计算一个LST 阅读全文
posted @ 2022-06-08 10:45 deephub 阅读(117) 评论(0) 推荐(0) 编辑
摘要:卷积神经网络 (CNN) 得到了广泛的应用并且事实证明他是非常成功的。但是卷积的计算很低效,滑动窗口需要很多计算并且限制了过滤器的大小,通常在 [3,3] 到 [7,7] 之间的小核限制了感受野(最近才出现的大核卷积可以参考我们以前的文章),并且需要许多层来捕获输入张量的全局上下文(例如 2D 图像 阅读全文
posted @ 2022-06-07 13:26 deephub 阅读(320) 评论(0) 推荐(0) 编辑
摘要:JAX 是一个由 Google 开发的用于优化科学计算Python 库: 它可以被视为 GPU 和 TPU 上运行的NumPy , jax.numpy提供了与numpy非常相似API接口。 它与 NumPy API 非常相似,几乎任何可以用 numpy 完成的事情都可以用 jax.numpy 完成。 阅读全文
posted @ 2022-06-06 11:16 deephub 阅读(1750) 评论(0) 推荐(1) 编辑
摘要:在任何数据科学面试中,基本上都会问道一些有关概率的问题。 这些问题有的非常棘手(因为里面包含了一些复杂的数学概念),但是如果逆知道基本公式和概念那么就很容易了。所以在本文中我总结了一些相关的问题供大家参考。 本文假设读者知道基本的概率公式和概念。因为可能有许多不同的方法来解决相同的问题,所以本文提供 阅读全文
posted @ 2022-06-05 11:59 deephub 阅读(127) 评论(0) 推荐(0) 编辑
摘要:TResNet: High Performance GPU-Dedicated Architecture 来自阿里的达摩院,发布于**2021 WACV,**该论文引入了一系列架构修改,旨在提高神经网络的准确性,同时保持其 GPU 训练和推理效率。 论文首先讨论了面向 FLOP 的优化引起的瓶颈。然 阅读全文
posted @ 2022-06-04 11:46 deephub 阅读(127) 评论(0) 推荐(0) 编辑
摘要:本文并不是为了造轮子,只是通过手动实现来介绍建基本深度学习框架所需组件和步骤 Numpy 已经提供了基本上所有需要的计算操作,我们需要的是一个支持自动微分(autograd)的框架来计算多个操作的梯度,这是模块化方法构建神经网络层的标准化方法,通过自动微分的框架,我们可以将优化器、激活函数等组合在一 阅读全文
posted @ 2022-06-03 10:56 deephub 阅读(48) 评论(0) 推荐(0) 编辑
摘要:softmax 函数在机器学习中无处不在:当远离分类边界时,它假设似然函数有一个修正的指数尾。 但是新数据可能不适合训练数据中使用的 z 值范围。如果出现新的数据点softmax将根据指数拟合确定其错误分类的概率;错误分类的机会并不能保证遵循其训练范围之外的指数(不仅如此——如果模型不够好,它只能将 阅读全文
posted @ 2022-06-02 11:10 deephub 阅读(32) 评论(0) 推荐(0) 编辑
摘要:在本篇文章中,我们将介绍回归树及其基本数学原理,并从头开始使用Python实现一个完整的回归树模型。 为了简单起见这里将使用递归来创建树节点,虽然递归不是一个完美的实现,但是对于解释原理他是最直观的。 首先导入库 import pandas as pd import numpy as np impo 阅读全文
posted @ 2022-06-01 11:26 deephub 阅读(90) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示