摘要:
Pandas有两种数据结构:Series和DataFrame。 1、Series Series类似于一维数组,和numpy的array接近,由一组数据和数据标签组成。数据标签有索引的作用。数据标签是pandas区分于numpy的重要特征。索引不一定是从0开始的数字,它可以被定义。 Series有自动 阅读全文
摘要:
可以把问题根据难度从小到大排个序:大数据+分布均衡<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡。 说明:对于小数据集,机器学习的方法是比较棘手的。对于需要解决的问题,拿到数据后,首先统计可用训练数据有多大,然后再观察数据分布情况。经验表明,训练数据中每个类别有5000个以上样本,其实也 阅读全文
摘要:
1、决策树 适用条件:数据不同类边界是非线性的,并且通过不断将特征空间切分为矩阵来模拟。特征之间有一定的相关性。特征取值的数目应该差不多,因为信息增益偏向于更多数值的特征。 优点:1.直观的决策规则;2.可以处理非线性特征;3.考虑了变量之间的相互作用。 缺点:1.容易过拟合(随机森林、剪枝);2. 阅读全文