摘要:
一、为什么对数据归一化 我们知道在神经网络训练开始前,需要对输入数据做归一化处理,那么具体为什么需要归一化呢? 原因在于:神经网络学习过程本质就是为了学习数据特征以及数据的分布特征,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低;另外一方面,一旦每批训练数据的分布各不相同(batch 阅读全文
摘要:
先说下一般对原始数据的划分为什么分为训练集、验证集、测试集三个部分? train data的作用是训练模型,validation data的作用是对模型的超参数进行调节,为什么不直接在test data上对参数进行调节?因为如果在test data上来调节参数,那么随着训练的进行,我们的网络实际上就 阅读全文
摘要:
相关方法合集见:https://github.com/quincyliang/nlp-data-augmentation 较为简单的数据增强的方法见论文:https://arxiv.org/pdf/1901.11196.pdf 论文中所使用的方法如下: 1. 同义词替换(SR: Synonyms R 阅读全文
摘要:
一、ZEN 目前,大多数中文预训练模型基本上沿用了英文模型的做法,聚焦于小颗粒度文本单元(字)的输入。然而,与英文相比,中文没有空格等明确的词语边界。这个特点使得很多文本表达中存在的交叉歧义也被带入了以字为序列的文本编码中,使得模型更难从单字的序列中学习到大颗粒度文本蕴含的语义信息,例如双字或者多字 阅读全文
摘要:
一、BERT-wwm wwm是Whole Word Masking(对全词进行Mask),它相比于Bert的改进是用Mask标签替换一个完整的词而不是子词,中文和英文不同,英文中最小的Token就是一个单词,而中文中最小的Token却是字,词是由一个或多个字组成,且每个词之间没有明显的分隔,包含更多 阅读全文
摘要:
性能度量是衡量模型泛化能力的评价标准,模型的好坏是相对的,模型的好坏不仅取决于算法和数据,还决定于任务的需求。 回归任务中常用的性能度量是:均方误差(越小越好),解释方差分(越接近1越好)。 分类任务中常用的性能度量: 1)错误率:分类错误的样本数占样本总数的比例。 2)精度:分类正确的样本数占样本 阅读全文
摘要:
1.kmeans聚类算法 传统的kmeans思路分析: 根据经验确定应该把数据聚类的类的个数N,随机的从数据集中选取N个点作为初始质心,遍历数据集中的每个点,把各个点归为与其距离最近的质心那一类(这里样本的各个特征应该同等重要,所以应该把数据标准化)。把所有数据聚为N类之后,选取每一类各个样本特征的 阅读全文
摘要:
1.什么时候要进行迁移学习? 目前大多数机器学习算法均是假设训练数据以及测试数据的特征分布相同。然而这在现实世界中却时常不可行。例如我们我们要对一个任务进行分类,但是此任务中数据不充足(在迁移学习中也被称为目标域),然而却有大量的相关的训练数据(在迁移学习中也被称为源域),但是此训练数据与所需进行的 阅读全文
摘要:
1.iForest(独立森林)算法 样本数据过大时推荐采用这种异常值检测方法 原理分析:iForest森林也由大量的树组成。iForest中的树叫isolation tree,简称iTree。iTree树和决策树不太一样,其构建过程也比决策树简单,因为其中就是一个完全随机的过程。具体实施过程如下:第 阅读全文
摘要:
1.numpy.random.uniform(low,high,size) 例如:numpy.random.uniform(-0.25,0.25,300) 随机的产生大小在[-0.25,0.25)之间维度为300的nparray 随机初始化词向量有论文说-0.25,0.25之间较好 2.Python 阅读全文