随笔分类 - 机器学习
摘要:个人对这几个名词粗浅的理解和区分,不甚全面,仅供参考。 定义 有监督:用有标签的数据训练; 无监督:用无标签的数据训练; 半监督:同时用有标签和无标签的数据进行训练。最近非常火热,此领域的发展也非常迅速,先前通常是两阶段的训练,先用(较小规模的)有标签数据训练一个Teacher模型,再用这个模型对(
阅读全文
摘要:联邦学习的思想概括为:一种无需交换数据(只交换训练中间参数或结果)的分布式机器学习技术,在保护数据隐私的同时实现数据共享,解决数据孤岛问题。 本文仅介绍基本概念,详细请查看文末参考资料。 基本概念 联邦学习(Federated Learning)是一种分布式机器学习技术,其核心思想是通过在多个拥有本
阅读全文
摘要:本文摘自博客和论文,参考文献请看文末。 一类分类技术概念 与传统的分类技术不同,一类分类技术仅采用隶属于一个类别的样本来训练分类器,其通常被用于某种极端场景,即训练样本仅包含正常样本,而异常样本不可得的情况。该技术也已被用于解决极度不平衡分类问题,因为在此类问题上,传统的类不平衡学习方法通常不能取得
阅读全文
摘要:什么是LabelEncoder(整数编码) 整数编码 将一列文本数据转化成数值,即列中的每一个特征都通过一个整数来表示。例如,[red, blue, red, yellow] = [0,2,0,1]。 什么是OneHotEncoder(独热编码) 独热编码 将一列文本数据转化成一列或多列只有0和1的
阅读全文