摘要:
来自Amazon,谷歌,Meta, Microsoft等的面试问题,本文接着昨天的文章整理了机器学习和深度学习的问题 机器学习 54、什么是机器学习? 机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有 阅读全文
摘要:
来自Amazon,google,Meta, Microsoft等的面试问题,问题很多所以对问题进行了分类整理,本文包含基础知识和数据分析相关问题 基础知识 1、什么是数据科学?列出监督学习和非监督学习的区别。 数据科学是各种工具、算法和机器学习方法的混合,其目标是从原始数据中发现隐藏的模式。这与统计 阅读全文
摘要:
BERT是一个著名的、强大的预先训练的“编码器”模型。让我们看看如何使用它作为“解码器”来形成编码器-解码器架构。 Transformer 架构由两个主要构建块组成——编码器和解码器——我们将它们堆叠在一起形成一个 seq2seq 模型。从头开始训练基于Transformer 的模型通常很困难,因为 阅读全文
摘要:
比较一个变量在不同组中的分布是数据科学中的一个常见问题。当我们想要评估一项策略(用户体验功能、广告活动、药物等)的因果效应时,因果推断的黄金标准便是随机对照试验,也就是所谓的A /B测试。在实践中,我们为研究选择一个样本,并将其随机分为对照组(control group)和实验组(treatment 阅读全文
摘要:
在评估模型时,虽然准确性是训练阶段模型评估和应用模型调整的重要指标,但它并不是模型评估的最佳指标,我们可以使用几个评估指标来评估我们的模型。 因为我们用于构建大多数模型的数据是不平衡的,并且在对数据进行训练时模型可能会过拟合。在本文中,我将讨论和解释其中的一些方法,并给出使用 Python 代码的示 阅读全文
摘要:
在人类的语言中,单词的顺序和它们在句子中的位置是非常重要的。如果单词被重新排序后整个句子的意思就会改变,甚至可能变得毫无意义。 Transformers不像LSTM具有处理序列排序的内置机制,它将序列中的每个单词视为彼此独立。所以使用位置编码来保留有关句子中单词顺序的信息。 什么是位置编码? 位置编 阅读全文
摘要:
主动学习是指对需要标记的数据进行优先排序的过程,这样可以确定哪些数据对训练监督模型产生最大的影响。 主动学习是一种学习算法可以交互式查询用户(teacher 或 oracle),用真实标签标注新数据点的策略。主动学习的过程也被称为优化实验设计。 主动学习的动机在于认识到并非所有标有标签的样本都同等重 阅读全文
摘要:
你是否一直在使用你的损失函数来评估你的机器学习系统的性能?我相信有很多人也是这样做的,这是一个普遍存在的误解,因为人工智能中的程序默认设置、课程中介绍都是这样说的。 在本文中,我将解释为什么需要两个独立的模型评分函数来进行评估和优化……甚至还可能需要第三个模型评分函数来进行统计测试。 在整个数据科学 阅读全文
摘要:
Curriculum Labeling (CL),在每个自训练周期之前重新启动模型参数,优于伪标签 (PL) Pseudo-Labeling (PL) 通过将伪标签应用于未标记集中的样本以在自训练周期中进行模型训练。Curriculum Labeling (CL)中,应用类似课程学习的原则,通过在每 阅读全文
摘要:
将数据集分解为训练集,可以帮助我们了解模型,这对于模型如何推广到新的看不见数据非常重要。如果模型过度拟合可能无法很好地概括新的看不见的数据。因此也无法做出良好的预测。 拥有适当的验证策略是成功创建良好预测,使用AI模型的业务价值的第一步,本文中就整理出一些常见的数据拆分策略。 简单的训练、测试拆分 阅读全文