02 2021 档案
摘要:学习数据得到模型的方法分为两种:生成方法和判别方法。 生成模型: 由数据学习得到联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型(Generative Model): 典型的生成模型:朴素贝叶斯、隐马尔可夫模型 注:输入和输出变量要求为随机变量。 判别模型: 由数据
阅读全文
摘要:泛化能力 泛化误差 泛化误差上界 指的泛化误差的概率上界。两种学习方法的优劣,通常通过他们的泛化误差上界进行比较。 性质: 他是样本容量的函数:当样本容量增加时,泛化上界趋于0 他是假设空间容量的函数:假设空间容量越大,模型就越难学,泛化误差上界就越大。 例:二分类泛化误差上界 定理(泛化误差上界)
阅读全文
摘要:统计学习的三要素: 统计学习方法 = 模型 + 策略 + 算法 无监督学习 模型有以下三种表示方式: Z来自于隐式结构空间的。 模型相应的假设空间分别是:所有可能的函数组成的集合,给定x的情况下z的条件概率分布集合 或者 给定z的情况下x的条件概率分布集合。 参数空间:所有可能的参数θ。 策略:优化
阅读全文
摘要:一、统计学习的概念 统计学习(Statistical Machine Learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 从已知到未知的方法。 统计学习的方法步骤 得到一个有限的训练数据集合 确定学习模型的集合—————— 模型 确定模型选择的准则———
阅读全文
摘要:STEAM是Science,technology, engineering,art,math的跨学科教育理念的简写,兴起于美国,近几年在中国逐渐流行。STEAM教育通过跨学科教育方式培养创新型复合人才,对于提升孩子的问题解决能力、创新思维、创造能力、具有十分重要的意义。在知识经济时代,教育目标之一就
阅读全文
摘要:第一节课是一个课程的介绍,没有涉及太多的知识方面的内容。 因为小艾已经有了很长时间的在NLP入门阶段跌跌撞撞了,所以对于为什么人类语言难以理解,已经有了比较深刻的认识,所以第一课没有做笔记,很快看完了,只留存了两张截图。 正式第一讲:Word Vector(Skip-Gram model) 这一讲主
阅读全文
摘要:【整理向】 19世纪60年代最早:基于模板和规则 19世纪90年代:基于检索(IR)匹配 从问题中提取关键词,根据关键词在文本库中搜索相关文档,并进行降序排序,然后从文档中提取答案. 主要模型有: 单轮:DSSM,CLSM 多轮:Multi-Viem,DAM(state-of-art),Memory
阅读全文
摘要:主要序列转导模型基于包括编码器(encoder)和解码器(decoder)的复杂递归或卷积神经网络。 性能最佳的模型还通过注意机制连接编码器和解码器。 我们提出了一种新的简单网络架构,Transformer,完全基于注意机制,完全免除递归和卷积。 两个机器翻译任务的实验表明,这些模型质量优越,同时可以更加并行化,并且需要更少的时间进行训练。我们的模型在WMT 2014英语 - 德语翻译任务中达到28.4BLEU,超过现有的最佳成绩,包括集成,超过2 BLEU。在WMT 2014英语到法语翻译任务中,我们的模型在8个GPU上训练3.5天后,建立了一个新的单模型最新BLEU分数41.8,这是最好的训练成本的一小部分文献中的模型。
阅读全文
摘要:摘要 我们提出了一种新的称为BERT的语言表示模型,BERT代表来自Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers)。不同于最近的语言表示模型(Peters et al., 2018,Radfor
阅读全文
摘要:摘要 我们提出了一种新的目标检测方法YOLO。与以前关于目标检测的工作重新设置分类器来执行检测的方法不同,我们将目标检测作为回归问题,构建空间上分离的边界框和相关的类别概率。单个神经网络在一次评估中直接从完整图像预测边界框和类别概率。由于整个检测流程是单一网络,因此可以直接在检测性能上进行端到端的优
阅读全文