摘要: 业务场景大概是这样的,这里由两个hive表格,tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中,我们知道union有着自动去重的功能,但是那是真对几行内容完全一致的情况下才可以。现在我们要进行去重的情况是根据uid进行去重。 也就是说可能存在 阅读全文
posted @ 2019-03-11 16:52 DUDUDA 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 今天的一个业务场景就是要把三年的数据从第一天不停的融合起来,每一天作为表格一个新的分区。由于空间有限,数据量很大,可能每天数据都是几十个G的大小。所以我需要做的一点就是在融合这一天之后,删除一天的分区数据,为了保险起见,我删除这一天的前三天的数据。 大致代码是这样的 shell function s 阅读全文
posted @ 2019-03-11 16:28 DUDUDA 阅读(827) 评论(0) 推荐(0) 编辑
摘要: 决策树是一种基本的分类和回归模型,也就是说既可以用于分类也可以用于回归。这里以分类为例。 决策树的学习算法包含三个步骤:特征选择,决策树的生成,决策树的剪枝 特征选择 特征选择在于选取对训练数据具有较好分类能力的特征,如果选取的特征进行分类的结果与随机分类的结果没有很大的差别,那么就不能说这个特征具 阅读全文
posted @ 2018-07-03 01:26 DUDUDA 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 二项逻辑斯蒂回归模型 构建预测函数 Logistic Regression 虽然是名字带有回归,但是本质上是一种分类方法,一般情况下用于二分类的情况(也就是说输出情况一般是有两种) 我们想要的函数是能够接受所有的输入,然后预测出来类别。在这里我们引入Sigmoid函数。函数形式如下 $$g(z)=\ 阅读全文
posted @ 2018-02-09 00:43 DUDUDA 阅读(544) 评论(0) 推荐(0) 编辑
摘要: 概述 支持向量机是一种二分类模型,间隔最大使它有别于感知机。支持向量机学习方法由简至繁的模型:线性可分支持向量机(linear support vector machine in linearly separable data),线性支持向量机(linear support vector machi 阅读全文
posted @ 2018-02-03 18:31 DUDUDA 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 这篇文章主要讲解使用Sklearn进行数据预处理,我们使用Kaggle中泰坦尼克号事件的数据作为样本。 读取数据并创建数据表格,查看数据相关信息 表格内容如下所示 填充缺失值(数据预处理的第一步就是处理缺失值) 对于缺失值不多不少的数据特征,我们可以使用机器学习模型进行缺失值得填充,例如随机森林,逻 阅读全文
posted @ 2018-01-28 21:42 DUDUDA 阅读(725) 评论(0) 推荐(0) 编辑
摘要: 最近邻分类 概念讲解 我们使用的是scikit learn 库中的neighbors.KNeighborsClassifier 来实行KNN. n_neighbors 是用来确定多数投票规则里的K值,也就是在点的周围选取K个值最为总体范围 weights : 这个参数很有意思,它的作用是在进行分类判 阅读全文
posted @ 2018-01-28 18:16 DUDUDA 阅读(6905) 评论(0) 推荐(0) 编辑
摘要: 引言 "Kaggle官方网站" 这是泰坦尼克号事件的基本介绍: 我们需要做的就是通过给出的数据集,通过对特征值的分析以及运用机器学习模型,分析什么样的人最可能存活,并给出对测试集合的预测。 对于Kaggle,我认为大体上有这么几个步骤: 1. 读取数据 pd.read_csv('文件地址.csv') 阅读全文
posted @ 2018-01-27 21:49 DUDUDA 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 为了记录自己的学习路程,特梳理目录如下: "每日学习记录" "如何成为一名优秀算法工程师 1" "如何成为一名优秀算法工程师 2" "开源书籍" "开源书籍" 深度学习系列 书籍: Neural Network and Deep Learning github https://github.com/ 阅读全文
posted @ 2018-01-25 03:07 DUDUDA 阅读(196) 评论(0) 推荐(0) 编辑
摘要: k 近邻法(K nearest neighbor)是一种基本的分类方法 基本思路: 给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例多数属于某个类别,就把输入实例分为这个类。 算法: 输入:训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y 阅读全文
posted @ 2018-01-25 02:30 DUDUDA 阅读(279) 评论(0) 推荐(0) 编辑