摘要: 本文记录笔者在观看Coursera上国立经济大学HLE的课程 How to win a data science competetion中的收获,和大家分享。课程的这门课的讲授人是Kaggle的大牛,内容详实,需要一定的python和机器学习基础。笔者只记录了一部分,许多细节都被省略了,详细内容各位 阅读全文
posted @ 2018-06-27 13:56 風酱 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 如何在Jupyter里以不同的运行模式使用Pyspark 阅读全文
posted @ 2018-04-28 15:10 風酱 阅读(2941) 评论(0) 推荐(0) 编辑
摘要: 宏平均微平均的概念 阅读全文
posted @ 2018-04-13 18:09 風酱 阅读(10944) 评论(2) 推荐(1) 编辑
摘要: docker镜像 阅读全文
posted @ 2018-04-12 16:41 風酱 阅读(1549) 评论(0) 推荐(0) 编辑
摘要: 随机森林 随机森林的“随机”体现在两个部分: 使用boostrap随机抽样(通俗点说就是有放回的随机抽样),假设原先数据集有N个样本,每次仍然抽出来N个样本,进行M次抽样,组成M个数据集(也就是抽M次,每次抽N个),每个单独的数据集都用来训练一颗单独的决策树T 选取特征进行分裂的时候,随机选取 k 阅读全文
posted @ 2018-04-04 09:45 風酱 阅读(619) 评论(0) 推荐(0) 编辑