摘要: CS100.1x简介 这门课主要讲数据科学,也就是data science以及怎么用Apache Spark去分析大数据。 Course Software Setup 这门课主要介绍如何编写和调试PySpark。本节主要介绍环境搭配。为了让所有人环境一致,本课程的编程环境是用Virtual Mach 阅读全文
posted @ 2017-04-14 18:40 james+zhao 阅读(968) 评论(0) 推荐(0) 编辑
摘要: 最近在刷kaggle的时候碰到了两种处理类别型特征的方法:label encoding和one hot encoding。我从stackexchange, quora等网上搜索了相关的问题,总结如下。 label encoding在某些情况下很有用,但是场景限制很多。比如有一列 [dog,cat,d 阅读全文
posted @ 2017-04-14 12:25 james+zhao 阅读(2355) 评论(0) 推荐(0) 编辑
摘要: 我在刷Kaggle时发现一个问题。很多人在处理数据的时候,经常把连续性特征离散化。对此我感到很好奇,所以上网搜了一些总结,主要内容来自知乎 "连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?" 这个是 "严林的回答" 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是 阅读全文
posted @ 2017-04-14 09:46 james+zhao 阅读(7768) 评论(0) 推荐(1) 编辑