posts - 189,comments - 1,views - 10万
05 2018 档案
t-sne
摘要:http://www.datakit.cn/blog/2017/02/05/t_sne_full.html t-SNE完整笔记 2017年02月05日 机器学习 机器学习 字数:26531 http://www.datakit.cn/blog/2017/02/05/t_sne_full.html t 阅读全文
posted @ 2018-05-05 11:33 郑哲 阅读(516) 评论(0) 推荐(0) 编辑
SVD(奇异值分解)
摘要:1.特征值和奇异值基础知识 特征值: 如果说一个向量v是方阵A的特征向量,将一定可以表示成下面的形式: 这时候λ就被称为特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式: 其中Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素 阅读全文
posted @ 2018-05-05 10:59 郑哲 阅读(286) 评论(0) 推荐(0) 编辑
Box-Cox(python实现)
摘要:之后补充 阅读全文
posted @ 2018-05-05 10:41 郑哲 阅读(2802) 评论(1) 推荐(0) 编辑
结构化数据转换(Box-Cox)
摘要:线性回归时若数据不服从正态分布,会给线性回归的最小二乘估计系数的结果带来误差,所以需要对数据进行结构化转换。 常用数据转换方式为: P值比较 普通数据转化的局限性 对比Box-Cox变换公式和普通数据变换公式,发现Box-Cox只是在形式上又一定的改进。 确定λ的值 阅读全文
posted @ 2018-05-05 10:21 郑哲 阅读(1158) 评论(0) 推荐(0) 编辑
Price suggestion(EDA)下--nlp的处理
摘要:此处处理非结构化数据(即自然语言)。 1.item_description(描述) 计算描述的字符长度 分析价格和字符长度之间的关系 移除异常值(即没有描述的行) 预处理:分词 1.先把描述拆分成句子,然后再把句子拆分成单词 2.移除标点和停词 3.单词小写 4.考虑单词长度等于或者大于3 查看分词 阅读全文
posted @ 2018-05-03 11:33 郑哲 阅读(743) 评论(0) 推荐(0) 编辑
Price suggestion(EDA)上--简单数据挖掘
摘要:https://www.kaggle.com/thykhuely/mercari-interactive-eda-topic-modelling 该题为的目的在于通过商家给予的商品的信息,建立一个商品的估价模型。 所给数据的大致分析: 列含义的分析:name:商品名 item_condition_i 阅读全文
posted @ 2018-05-03 09:03 郑哲 阅读(790) 评论(0) 推荐(0) 编辑
tf-idf
摘要:tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会 阅读全文
posted @ 2018-05-03 07:53 郑哲 阅读(205) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示