随笔分类 - ML
摘要:优点: (1) 解决了 分类器不好处理离散数据 的问题。 a. 欧式空间。在回归,分类,聚类等机器学习算法中,特征之间距离计算 或 相似度计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。 b. one-hot 编码。使用 one-hot
阅读全文
摘要:激活函数: 激活函数的作用: 梯度下降由基于链式规则的反向传播组成,链式规则用于获取权值变化以减少每次训练后的损失。 神经网络是利用梯度下降过程来训练的。 如果使用线性函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。加深神经网络的层数就没有什么意义了。线性函数的
阅读全文
摘要:#### dataframe格式数据 1.读取数据: `data = pd.read_csv('D:/jupyter/data/mydata/vertex.csv', header = None)` 按行读取: ```python import csv with open('../file.csv'
阅读全文
摘要:防止过拟合的方法有哪些? 过拟合现象就是模型在train data上表现很好,但是在test data上表现不好。在神经网络的loss中表现为train loss一直在下降,但是dev set上的loss在某个节点开始上升。 过拟合 == 泛化能力差 过拟合出现的原因: 训练数据太少,样本不足; 训
阅读全文
摘要:交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调优的问题。 主要有三种方式:留出验证(HoldOut检验)、k折交叉验证(k-fold交叉验证)、自助法。 留出验证 方法:将原始数据集随机划分成训练集和验证集两部分。尽量保持训练集和测试集分布一致 例如,将样本按照70%~30%的比例分成
阅读全文
摘要:分类问题 分类问题的标签是离散的,一般是无序且独立的。 分类问题可以细分为: 二分类问题 是指数据的标签只有两类,比如图片的猫狗识别,只有猫和狗两类。一般用 正样本(1) 和 负样本(0) 来分别表示这两类。 多分类问题 是指数据的标签有多类,比如阿拉伯数字识别,需要根据图片来识别这个数字是 0 至
阅读全文
摘要:LDA模型 LDA是自然语言处理中非常常用的一个主题模型,全称是隐含狄利克雷分布(Latent Dirichlet Allocation)。 作用是将文档集中每篇文档的主题以概率分布的形式给出,然后通过分析分到同一主题下的文档抽取其实际的主题(模型运行结果就是一个索引编号,通过分析,将这种编号赋予实
阅读全文
摘要:1、Kmeans 是无监督学习,是一种聚类算法。 步骤: 1.初始化一个常数K,也就是最终的聚类类别数,随机选取K个质心; 2.计算每个样本与质心的相似度,把它归到最相似的类中; 3.重新计算每个类的质心,重复上述步骤,直到质心不再改变; 4.最后输出每个样本所属的类以及每个类的质心。 注:可以通过
阅读全文