摘要: 3. 二维数组中的查找 基础 题目 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数 例如: 1 2 8 9 2 4 9 12 4 7 10 13 6 8 11 15 查7则返回Tru 阅读全文
posted @ 2020-08-28 16:07 mszhai 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 本文主要总结集成学习(ensemble learning)中一大类boosting模型--梯度提升。主要包括GBDT, XGBoost, LightBoost, CatBoost 这4种模型的原理,以及关于这4个模型的简单示例。 阅读全文
posted @ 2020-08-28 16:04 mszhai 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 机器学习基本认识 0. 概述 数据挖掘主要包括数据库、机器学习、统计学三个方面的知识。机器学习主要是数据、模型、评估。模型主要是函数集、损失函数(如何从函数集中找最优的一个函数)、求解过程。 机器学习的应用,应注意具体的场景,基本的假设和数据的情况。 1. 特征工程 1.1 归一化 1.2 类别特征 阅读全文
posted @ 2020-08-28 15:56 mszhai 阅读(487) 评论(0) 推荐(0) 编辑
摘要: [翻译]特征选择:比特征本身重要么? 翻译:Feature Selection: Beyond feature importance? 作者:Dor Amir 关键词:特征工程(feature selection) 在机器学习中,特征选择就是选择对于你的预测任务最有用的特征的过程。尽管这听起来很简单 阅读全文
posted @ 2020-08-22 16:54 mszhai 阅读(463) 评论(0) 推荐(0) 编辑
摘要: 用全连接神经网络做汽车效能的回归预测 keyword: 全连接神经网络,tensorflow, 回归 说明 主要是利用全连接神经网络来做汽车的效能指标MPG的回归问题预测。 python包包括:os, pandas, tensorflow, sklearn, matplotlib 数据加载 数据集为 阅读全文
posted @ 2020-08-15 11:14 mszhai 阅读(970) 评论(0) 推荐(0) 编辑
摘要: 决策树 是基于树结构进行决策。 基本介绍 函数集 决策树的函数集就是通过特征来构造的树结构来表达。 函数评价 划分选择 通过选择最优划分属性,来得到上述树结构的形式。 信息熵 信息熵定义: \(H=-\sum_{k}p_{k}\log{p_k}\) 信息增益, 或者叫互信息,是衡量特征X已知的情况下 阅读全文
posted @ 2020-08-15 10:39 mszhai 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归 是一种二分类的有监督模型。将因变量视为0|1分布,则可以通过极大似然概率,来估计模型参数。 其损失函数为交叉熵损失函数,由于损失函数是高阶可导的凸函数,因此有很好的性质。 基本介绍 函数集 逻辑回归是基于Sigmoid函数 \(\sigma(x)=\frac{1}{1+e^{-z}}\) 阅读全文
posted @ 2020-07-24 17:24 mszhai 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘 key word: 数据挖掘, 概述 数据挖掘是一个跨学科的概念。对于个人的综合素质要求还是比较高的。主要是数据库,统计学,机器学习这三个方面。个人技能方面还包括数据结构与算法以及相关的业务知识。数据库知识除了基本的数据库知识外,还有数据仓库、大数据。机器学习除了传统的机器学习算法和统计学 阅读全文
posted @ 2020-07-24 17:19 mszhai 阅读(158) 评论(0) 推荐(0) 编辑
摘要: hadoop完全分布式模式搭建和hive安装 简介 Hadoop是用来处理大数据集合的分布式存储计算基础架构。可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。hadoop作为底层,其生态环境很丰富。 hadoop基础包括以下四个基本模块: hadoop基础功能库:支持其他h 阅读全文
posted @ 2018-01-22 21:13 mszhai 阅读(2998) 评论(0) 推荐(0) 编辑