摘要:
全球食品数据分析 项目参考:https://www.kaggle.com/bhouwens/d/openfoodfacts/world-food-facts/how-much-sugar-do-we-eat/discussion 阅读全文
摘要:
聚类模型:K-Means 聚类(clustering)属于无监督学习(unsupervised learning) 无类别标记 在线 demo:http://syskall.com/kmeans.js 聚类(clustering)属于无监督学习(unsupervised learning) 无类别标 阅读全文
摘要:
Matplotlib 是一个 Python 的 2D绘图库,通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。 http://matplotlib.org 用于创建出版质量图表的绘图工具库 目的是为Python构建一个Matlab式的绘图 阅读全文
摘要:
数据清洗 数据清洗是数据分析关键的一步,直接影响之后的处理工作 数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘? 是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作 处理缺失数据:pd.fillna(),pd.dropna() 数据清洗是数据分析关键的一 阅读全文
摘要:
Pandas统计计算和描述 示例代码: 运行结果: 常用的统计计算 sum, mean, max, min… axis=0 按列统计,axis=1按行统计 skipna 排除缺失值, 默认为True 示例代码: 运行结果: 常用的统计描述 describe 产生多个统计数据 示例代码: 运行结果: 阅读全文
摘要:
Pandas分组与聚合 分组 (groupby) 对数据集进行分组,然后对每组进行统计分析 SQL能够对数据进行过滤,分组聚合 pandas能利用groupby进行更加复杂的分组运算 分组运算过程:split->apply->combine 拆分:进行分组的根据 应用:每个分组运行的计算规则 合并: 阅读全文