上一页 1 2 3 4 5 6 ··· 19 下一页
摘要: 1.删去多余的feature 当一个feature在所有样本中的值相同时,可以删去该feature,该feature不能描述样本 2.标准化处理 降低数据维度,减少计算,同时正态化后能时拟合收敛速度更快 3.可以尝试删除feature值大多数都相同的情况 (并不一定有作用) 阅读全文
posted @ 2018-07-04 18:37 郑哲 阅读(132) 评论(0) 推荐(0) 编辑
摘要: https://www.kaggle.com/c/santander-value-prediction-challenge 在kaggle该题中,需要通过所给的匿名变量来预测target值 feature比较多,所以通过降维来查看训练集和测试集的分布情况 1.训练分类器划分测试集和训练集 我们把训练 阅读全文
posted @ 2018-07-04 18:31 郑哲 阅读(3046) 评论(0) 推荐(0) 编辑
摘要: http://www.datakit.cn/blog/2017/02/05/t_sne_full.html t-SNE完整笔记 2017年02月05日 机器学习 机器学习 字数:26531 http://www.datakit.cn/blog/2017/02/05/t_sne_full.html t 阅读全文
posted @ 2018-05-05 11:33 郑哲 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 1.特征值和奇异值基础知识 特征值: 如果说一个向量v是方阵A的特征向量,将一定可以表示成下面的形式: 这时候λ就被称为特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式: 其中Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素 阅读全文
posted @ 2018-05-05 10:59 郑哲 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 之后补充 阅读全文
posted @ 2018-05-05 10:41 郑哲 阅读(2801) 评论(1) 推荐(0) 编辑
摘要: 线性回归时若数据不服从正态分布,会给线性回归的最小二乘估计系数的结果带来误差,所以需要对数据进行结构化转换。 常用数据转换方式为: P值比较 普通数据转化的局限性 对比Box-Cox变换公式和普通数据变换公式,发现Box-Cox只是在形式上又一定的改进。 确定λ的值 阅读全文
posted @ 2018-05-05 10:21 郑哲 阅读(1143) 评论(0) 推荐(0) 编辑
摘要: 此处处理非结构化数据(即自然语言)。 1.item_description(描述) 计算描述的字符长度 分析价格和字符长度之间的关系 移除异常值(即没有描述的行) 预处理:分词 1.先把描述拆分成句子,然后再把句子拆分成单词 2.移除标点和停词 3.单词小写 4.考虑单词长度等于或者大于3 查看分词 阅读全文
posted @ 2018-05-03 11:33 郑哲 阅读(740) 评论(0) 推荐(0) 编辑
摘要: https://www.kaggle.com/thykhuely/mercari-interactive-eda-topic-modelling 该题为的目的在于通过商家给予的商品的信息,建立一个商品的估价模型。 所给数据的大致分析: 列含义的分析:name:商品名 item_condition_i 阅读全文
posted @ 2018-05-03 09:03 郑哲 阅读(786) 评论(0) 推荐(0) 编辑
摘要: tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会 阅读全文
posted @ 2018-05-03 07:53 郑哲 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 在对数据进行线性拟合时,常常要求该变量满足正态分布,通常变量不满足或者正态分布拟合的不是很好。 如何把这些数据转换成正态分布的数据? 1.使用log()函数通常能使数据集向正态分布靠近。 若数据集中数据存在负数,则需要对数据进行预处理: 大致预处理如下:1)对数据进行归一化,即把数据映射到[0,1] 阅读全文
posted @ 2018-03-18 22:45 郑哲 阅读(2506) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 19 下一页