摘要: 阅读全文
posted @ 2018-06-07 20:08 迷茫的计算机呆 阅读(1423) 评论(0) 推荐(0) 编辑
摘要: 判断单个特征是否有用 groupby().mean(): 将单个特征与结果分组统计平均值,观察得出是否是有用特征。 比如在泰坦尼克预测中,统计Sex和最后的suivived的分组平均值,得出sex是有用特征。 这里必须加两个中括号,一个中括号会报错。 阅读全文
posted @ 2018-06-05 17:00 迷茫的计算机呆 阅读(183) 评论(0) 推荐(0) 编辑
摘要: pandas 读取泰坦尼克号数据,报错 后来发现是数据有问题,重新下载数据,然后问题解决。 但这个问题也需要搞清楚 阅读全文
posted @ 2018-06-05 16:27 迷茫的计算机呆 阅读(1777) 评论(0) 推荐(0) 编辑
摘要: 摘自 章华燕 思想:对于任意的 n 维输入向量,其对应于特征空间一个点,输出为该特征向量所对应的类别标签或者预测值。 它实际上的工作原理是利用训练数据对特征向量空间进行划分,并将其划分的结果作为其最终的算法模型。 分类算法 KNN 分类算法的分类预测过程十分的简单和容易理解:对于一个需要预测的输入向 阅读全文
posted @ 2018-06-04 23:02 迷茫的计算机呆 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 转载自 https://www.cnblogs.com/datablog/p/6127000.html pandas.read_csv参数整理 读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-d 阅读全文
posted @ 2018-06-04 10:43 迷茫的计算机呆 阅读(4284) 评论(0) 推荐(0) 编辑
摘要: 将下面注释掉 fillna() 函数:有一个inplace参数,默认为false,不会对原来dataframe中进行替换,为True时候会修改原来的。 阅读全文
posted @ 2018-05-21 19:38 迷茫的计算机呆 阅读(1025) 评论(0) 推荐(0) 编辑
摘要: 我一直以为inplace写错了,查半天 其实是逗号写成中文逗号了。 阅读全文
posted @ 2018-05-21 19:31 迷茫的计算机呆 阅读(183) 评论(0) 推荐(0) 编辑
摘要: info() 函数 describe() value_counts(), 对于DataFrame里的特定label可以通过value_counts()函数来统计每个种类的个数 unique(): 将某一列共有哪些不同的值,一一列出来 阅读全文
posted @ 2018-05-21 19:19 迷茫的计算机呆 阅读(141) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/zhangzhangwhu/p/7219651.html 阅读全文
posted @ 2018-05-17 21:15 迷茫的计算机呆 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 参考:https://www.kaggle.com/startupsci/titanic-data-science-solutions 哪些特征是分类特征: 哪些特征是数字类型的: 哪些特征是混合类型 哪些特征可能包含错误或者手误: 哪些特征包含空格,null 或空值 各个特征的数据类型是什么 数字 阅读全文
posted @ 2018-05-08 21:38 迷茫的计算机呆 阅读(205) 评论(0) 推荐(0) 编辑