摘要:
PyTorch在autograd模块中实现了计算图的相关功能,autograd中的核心数据结构是Variable。从v0.4版本起,Variable和Tensor合并。我们可以认为需要求导(requires_grad)的tensor即Variable. autograd记录对tensor的操作记录用 阅读全文
摘要:
从接口的角度来讲,对tensor的操作可分为两类: torch.function,如torch.save等。 另一类是tensor.function,如tensor.view等。 为方便使用,对tensor的大部分操作同时支持这两类接口,在此不做具体区分,如torch.sum (torch.sum( 阅读全文
摘要:
1. Tensor: Tensor是PyTorch中重要的数据结构,可认为是一个高维数组。它可以是一个数(标量)、一维数组(向量)、二维数组(矩阵)以及更高维的数组。Tensor和Numpy的ndarrays类似,但Tensor可以使用GPU进行加速。Tensor的使用和Numpy及Matlab的接 阅读全文
摘要:
# data is a DataFrame type data.sample(nums) # 随机取nums个值 data.col.unique() # 返回col取的所有值 #对于变量(不论连续或者离散或者类型变量), 得到其col的取值直方图 fig = data.loan_amnt.hist( 阅读全文
摘要:
特征选择是选择相关特征的子集用于机器学习模型构建的过程,数据越多,结果就越好,这并不总是事实。包含不相关的特征(对预测没有帮助的特征)和冗余的特征(与他人无关的特征)只会使学习过程不堪重负,容易导致过度拟合。 特征选择的好处: 不同的特征子集为不同的算法提供了最佳性能。所以它和机器学习模型训练不是一 阅读全文
摘要:
1.Feature Scaling 对数据的自变量或特征范围进行标准化的一种方法。在数据处理中,它也称为数据规范化,通常在数据预处理步骤中执行。 为什么要进行Feature Scaling: 如果输入范围变化,在某些算法中,对象函数将不能正常工作。 梯度下降收敛得更快,与特征缩放完成。梯度下降法是逻 阅读全文
摘要:
1.缺失值 当数据缺失时出现的问题: 当有缺失值时有些算法没法work 即使是处理缺失数据的算法,如果不进行处理,模型也会导致不准确的结论 缺失机制: Missing Completely as Random:如果所有观测值丢失的概率相同,则变量完全随机丢失(MCAR)。当数据是MCAR时,那些丢失 阅读全文
摘要:
1.数据类型 离散变量: 值为整数(计数)的变量称为离散变量。例如,一个顾客在超市购买的商品数量是离散的。客户可以购买1件、25件或50件商品,但不能购买3.7件商品。它总是一个整数。以下是离散变量的例子: 借款人的活跃银行帐户数目(1,4,7,…) 家庭宠物的数量 家庭中孩子的数量 现实中我们可能 阅读全文
摘要:
特征工程是机器学习,甚至是深度学习中最为重要的一部分,也是课本上最不愿意讲的一部分。特征工程是data science中最有创造力的一部分。因为往往和具体的数据相结合,很难优雅的系统的讲好。所以课本上会讲一下理论知识比较扎实的归一化,降维等部分,而忽略一些很dirty hand的特征工程技巧。 Ka 阅读全文