摘要: 本博客系列文章说明。 避免迷路可以先看这篇导航,老司机可以绕道。 阅读全文
posted @ 2016-09-27 10:52 二十又七 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 今天是2016年12.05; 明天要去上海做报告了。突然意识到自己真的是不够focus,有点一事无成的感觉。没办法又到了立flag的时候了。 早上数据挖掘,下午科研,晚上数据挖掘算法复习。9.00之后再考虑其他杂七杂八的事情吧。 一定要坚持呀,不然要完了。 第一批计划是机器学习基础和python在线 阅读全文
posted @ 2016-12-05 19:50 二十又七 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 支持向量机 1.间隔与支持向量 分类学习的基本想法就是基于训练集D在样本空间找到一个划分超平面,将不同的类别进行区分,我们的关键是如何能够找到一个合适的超平面(泛化性能最好) 下面的式子表示样本空间到超平面的距离。 若存在超平面将训练样本正确分类,则对(xi,yi),若yi = 1,则有wTx + 阅读全文
posted @ 2016-10-05 16:35 二十又七 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 2.数据 本章概要: 数据类型:定量或者定性,除此外某些数据可能还具备自身的属性(时间属性,彼此之间有明显的联系)。数据挖掘通常是针对特定的领域和特定的数据类型展开的。————识别数据 数据质量:数据中的噪声和离群点,数据遗漏,不一致或重复,偏差或不能地表总体。————数据清洗 数据预处理:预处理提 阅读全文
posted @ 2016-09-27 15:36 二十又七 阅读(533) 评论(0) 推荐(0) 编辑
摘要: Numpy(Numerical Python)是高性能科学计算和数据分析的基础包。 1.Numpy的ndarray:一种多维数组对象 对于每个数组而言,都有shape和dtype这两个属性来获取数组的形状(元组表示)和类型。 创建ndarray: 可直接用np.array()着函数进行创建,往其中传 阅读全文
posted @ 2016-09-23 09:52 二十又七 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 对数据集进行分组并对各组应用的一个函数(无论是聚合还是转换) GroupBy 技术(拆分-应用-合并) 阅读全文
posted @ 2016-09-23 08:24 二十又七 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 数据规整化:清理、转换、合并、重塑 1.合并数据集 pandas对象中的数据可以通过一些内置的方式进行合并: pandas.merge pandas.concat:沿一条轴线将多个对象进行堆叠 combine_first:重复数据连接,用一个对象中的值填充另一个缺失值 1.1 数据库风格的DataF 阅读全文
posted @ 2016-09-22 20:30 二十又七 阅读(2023) 评论(0) 推荐(0) 编辑
摘要: 概念储备: (The least square method)和(least square error) 狭义的最小二乘方法,是线性假设下的一种有闭式解的参数求解方法,最终结果为全局最优; 梯度下降法,是假设条件更为广泛(无约束)的,一种通过迭代更新来逐步进行的参数优化方法,最终结果为局部最优; 广 阅读全文
posted @ 2016-09-17 18:55 二十又七 阅读(5772) 评论(0) 推荐(0) 编辑
摘要: 2.1 经验误差与过拟合 基本概念: 错误率:分类错误数/总样本数 训练误差/经验误差:学习器在训练集上所产生的误差 泛化误差:学习器在测试集上产生的误差 2.2 评估方法 在实际应用中会有多种不同的算法进行选择,对于不同的问题,我们该选择用哪种学习算法和参数配置,是机器学习中的模型选择。无法直接获 阅读全文
posted @ 2016-09-15 13:42 二十又七 阅读(1500) 评论(0) 推荐(1) 编辑
摘要: 朴素贝叶斯;半朴素贝叶斯;贝叶斯网;贝叶斯python实现 阅读全文
posted @ 2016-09-14 21:21 二十又七 阅读(8046) 评论(0) 推荐(0) 编辑