2018 年 6月 19 日随笔档案 - 深度机器学习

2018年6月19日

摘要： Pandas有两种数据结构：Series和DataFrame。 1、Series Series类似于一维数组，和numpy的array接近，由一组数据和数据标签组成。数据标签有索引的作用。数据标签是pandas区分于numpy的重要特征。索引不一定是从0开始的数字，它可以被定义。 Series有自动阅读全文

posted @ 2018-06-19 16:45 深度机器学习阅读(450) 评论(0) 推荐(0) 编辑

机器学习（十八）— 机器学习中数据不平衡问题（数据、算法）

摘要：可以把问题根据难度从小到大排个序：大数据+分布均衡<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡。说明：对于小数据集,机器学习的方法是比较棘手的。对于需要解决的问题，拿到数据后，首先统计可用训练数据有多大，然后再观察数据分布情况。经验表明，训练数据中每个类别有5000个以上样本，其实也阅读全文

posted @ 2018-06-19 15:12 深度机器学习阅读(1156) 评论(0) 推荐(0) 编辑

机器学习（十一）—常用机器学习算法优缺点对比、适用条件

摘要： 1、决策树适用条件：数据不同类边界是非线性的，并且通过不断将特征空间切分为矩阵来模拟。特征之间有一定的相关性。特征取值的数目应该差不多，因为信息增益偏向于更多数值的特征。优点：1.直观的决策规则；2.可以处理非线性特征；3.考虑了变量之间的相互作用。缺点：1.容易过拟合（随机森林、剪枝）；2. 阅读全文

posted @ 2018-06-19 12:12 深度机器学习阅读(5456) 评论(0) 推荐(0) 编辑

深度机器学习

公告