摘要:
一、简介 1.1 比赛描述 建模零售数据的一个挑战是需要根据有限的历史做出决策。如果圣诞节一年一次,那么有机会看到战略决策如何影响到底线。 在此招聘竞赛中,为求职者提供位于不同地区的45家沃尔玛商店的历史销售数据。每个商店都包含许多部门,参与者必须为每个商店中的每个部门预测销售额。要添加挑战,选定的 阅读全文
摘要:
是否在人类监督下进行训练(监督,无监督和强化学习) 在机器学习中,无监督学习就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起归位一类;而监督型学习就是有训练样本,带有属性标签,也可以理解成样本有输入有输出。 所有的回归算法和分类算法都属于监督学习。回归和分类的算法区别在于输出变量的 阅读全文
摘要:
kaggle链接:https://www.kaggle.com/c/GiveMeSomeCredit 一、简介 kaggle上经典的风控模型:通过预测未来两年内某人将面临财务困境的可能性,提高信用评分的现有水平 1.1 比赛描述银行在市场经济中起着至关重要的作用。他们决定谁可以获得融资以及在什么条件 阅读全文
摘要:
一、集成学习 集成学习就是合并多个分类器的预测。一般会在一个项目快结束的时候使用集成算法,一旦建立了一些好的分类器,就可以使用集成把它们合并成一个更好的分类器。著名的集成方法:投票分类、bogging、pasting、boosting、stacking、和一些其它算法。 1.1 投票分类(少数服从多 阅读全文
摘要:
决策树和支持向量机一样, 决策树是一种多功能机器学习算法, 即可以执行分类任务也可以执行回归任务。决策树也是随机森林的基本组成部分,而随机森林是当今最强大的机器学习算法之一。 一、决策树分类 1.1 实现决策树分类 1.2 决策树的可视化 使用export_graphviz()方法,通过生成一个叫做 阅读全文
摘要:
首先说下LIKE命令都涉及到的通配符: % 替代一个或多个字符 _ 仅替代一个字符 [charlist] 字符列中的任何单一字符 [^charlist]或者[!charlist] 不在字符列中的任何单一字符 其中搭配以上通配符可以让LIKE命令实现多种技巧: 1、LIKE'Mc%' 将搜索以字母 M 阅读全文
摘要:
本次使用的数据集是比较经典的mnist数据集。它有着 70000 张规格较小的手写数字图片,由美国的高中生和美国人口调查局的职员手写而成。这相当于机器学习当中的“Hello World”,人们无论什么时候提出一个新的分类算法,都想知道该算法在这个数据集上的表现如何。机器学习的初学者迟早也会处理 MN 阅读全文
摘要:
下载数据 加载数据 查看数据结构 info() info()方法可以快速查看数据的描述,特别是总行数、每个属性的类型和非空值的数量 查看数据结构 info() info()方法可以快速查看数据的描述,特别是总行数、每个属性的类型和非空值的数量 查看数据结构 info() info()方法可以快速查看 阅读全文
摘要:
1.如何定义机器学习? 机器学习是通过编程让计算机从数据中进行学习的科学(和艺术)。 2.机器学习可以解决的四类问题? 监督学习、非监督学习、半监督学习和强化学习 3.什么是带标签的训练集? 用来训练算法的训练数据包含了答案 4.最常见的两个监督任务是什么? K近邻算法 线性回归 逻辑回归 支持向量 阅读全文
摘要:
简而言之,因为你的主要任务是选择一个学习算法并用一些数据进行训练,会导致错误的两件事就是“错误的算法”和“错误的数据”。我们从错误的数据开始。 训练数据量不足 要让一个蹒跚学步的孩子知道什么是苹果,需要做的就是指着一个苹果说“苹果”(可能需要重复这个过程几次)。现在这个孩子就能认识所有形状和颜色的苹 阅读全文