随笔分类 - 机器学习
摘要:pip install model-log Model Log 安装成功后,Linux、Mac用户直接终端输入以下命令,Windows用户在cmd窗口输入: model-log # 第一步:先创建 ModelLog 类,并添加必要的属性 from model_log.modellog import
阅读全文
摘要:# softmax使用python代码实现训练<鸾尾花数据.csv>,(3分类)#1) 手写softmax算法方式实现。#2) 需要把数据划分训练测试集(7:3) 70%数据训练,30%测试#3) 画出训练的损失值曲线#4)计算混淆举证,准确率,召回率,精准率,f1#https://zhuanlan
阅读全文
摘要:cart回归树构建过程:x1 x2 y2 1 34 3 26 5 48 7 1步骤1:找最优划分属性和对应的划分点x1候选的划分点(3,5,7)和x2的候选划分点(2,4,6)计算mse_x1_3,按照x1小于3和大于3划分左右两个节点左边 右边x1 x2 y x1 x2 y2 1 3 4 3 2
阅读全文
摘要:自我总结一下总的这四类里面; 两句话之间的关系; 这句话的意思; 根据这段话找出答案; 词性标注、NER识别 图片裁剪可能比较模糊,如果哪里实在看不清请评论中指出来
阅读全文
摘要:$ tree . . |-- bert_cloud_tpu.md |-- classifier_data_lib.py # 分类数据方法库 |-- common_flags.py # 通用命令行参数 |-- create_finetuning_data.py # 生成tfrecord格式的微调数据(
阅读全文
摘要:HMM只是针对有向图来的,而CRF针对无向图,可以参考一下:Classical Probabilistic Models and Conditional Random Fields 先加一个例子,在一个持续时间段的图片中,里面如果有一张闭着的嘴部图片,那你应该怎么标注它?它是在吃饭,还是唱歌?必须将
阅读全文
摘要:1. 防止过拟合的方法有哪些? 过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。 产生过拟合问题的原因大体有两个:训练样本太少或者模型太复杂。 防止过拟合问题的方法: (1)增加训练数据。
阅读全文
摘要:常用归一化方法 1). 线性归一化,线性归一化会把输入数据都转换到[0 1]的范围,公式如下 该方法实现对原始数据的等比例缩放,其中Xnorm为归一化后的数据,X为原始数据,Xmax、Xmin分别为原始数据集的最大值和最小值。 优点:通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的
阅读全文
摘要:KMO检验和Bartlett球形检验因子分析前,首先进行KMO检验和巴特利球体检验,KMO检验系数>0.5,(巴特利特球体检验的x2统计值的显著性概率)P值<0.05时,问卷才有结构效度,才能进行因子分析,因子分析主要是你自己做了一份调查问卷,你要考量这份问卷调查来的数据信度和效度如何,能不能对你想
阅读全文
摘要:梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。 梯度下降是迭代法的一种,可以用
阅读全文
摘要:关于熵这篇文章比较全 学习的前提了解 数学期望(mean)(或均值,亦简称期望) 是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。 熵是一种自信息 熵越大, 它的不确定性越大 信息熵:每个信息量的数学期望H(x)= E(log(1/p)),就是其概率
阅读全文
摘要:两个随机变量的独立性表示两个变量X与Y是否有关系(贝叶斯可证),但是关系的强弱(mutual dependence)是无法表示的,为此我们引入了互信息。 其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。 在连续随机变量的情形下,求和
阅读全文