摘要: 1.数据可视化 kaggle中数据解释:https://www.kaggle.com/c/titanic/data 数据形式: 读取数据,并显示数据信息 数据结果如下: 数据解释: 1.1 生存/死亡人数统计 1.2 PClass 通过数据分布可以很明显的看出 Pclass 为 1/2 的乘客存活率 阅读全文
posted @ 2018-12-09 19:44 NeilZhang 阅读(1216) 评论(0) 推荐(0) 编辑
摘要: 问题引入 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: 如果将上述特征用数字表示,效率会高很多。例如: 但是,即使转化为数字表示后,上述数据也不能直接用在我们的分类器中。这个的整数特征表示并不能在分类器中直接使用,因为这样的连续输入,估计器会认为类别之间是 阅读全文
posted @ 2018-12-09 11:59 NeilZhang 阅读(2673) 评论(0) 推荐(0) 编辑