DUDUDA

2019年3月11日

【Hadoop/Hive/mapreduce】系列之使用union all 命令之后如何对hive表格使用python进行去重

摘要：业务场景大概是这样的，这里由两个hive表格，tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中，我们知道union有着自动去重的功能，但是那是真对几行内容完全一致的情况下才可以。现在我们要进行去重的情况是根据uid进行去重。也就是说可能存在阅读全文

posted @ 2019-03-11 16:52 DUDUDA 阅读(484) 评论(0) 推荐(0) 编辑

【Hadoop/Hive/mapreduce】系列之如何删除HIVE 表格的分区

摘要：今天的一个业务场景就是要把三年的数据从第一天不停的融合起来，每一天作为表格一个新的分区。由于空间有限，数据量很大，可能每天数据都是几十个G的大小。所以我需要做的一点就是在融合这一天之后，删除一天的分区数据，为了保险起见，我删除这一天的前三天的数据。大致代码是这样的 shell function s 阅读全文

posted @ 2019-03-11 16:28 DUDUDA 阅读(827) 评论(0) 推荐(0) 编辑

2018年7月3日

【机器学习算法基础+实战系列】决策树算法

摘要：决策树是一种基本的分类和回归模型，也就是说既可以用于分类也可以用于回归。这里以分类为例。决策树的学习算法包含三个步骤：特征选择，决策树的生成，决策树的剪枝特征选择特征选择在于选取对训练数据具有较好分类能力的特征，如果选取的特征进行分类的结果与随机分类的结果没有很大的差别，那么就不能说这个特征具阅读全文

posted @ 2018-07-03 01:26 DUDUDA 阅读(313) 评论(0) 推荐(0) 编辑

2018年2月9日

【机器学习算法基础+实战系列】逻辑斯蒂回归

摘要：二项逻辑斯蒂回归模型构建预测函数 Logistic Regression 虽然是名字带有回归，但是本质上是一种分类方法，一般情况下用于二分类的情况（也就是说输出情况一般是有两种）我们想要的函数是能够接受所有的输入，然后预测出来类别。在这里我们引入Sigmoid函数。函数形式如下 $$g(z)=\ 阅读全文

posted @ 2018-02-09 00:43 DUDUDA 阅读(544) 评论(0) 推荐(0) 编辑

2018年2月3日

【机器学习算法基础+实战系列】SVM

摘要：概述支持向量机是一种二分类模型，间隔最大使它有别于感知机。支持向量机学习方法由简至繁的模型：线性可分支持向量机(linear support vector machine in linearly separable data)，线性支持向量机(linear support vector machi 阅读全文

posted @ 2018-02-03 18:31 DUDUDA 阅读(385) 评论(0) 推荐(0) 编辑

2018年1月28日

【Sklearn系列】使用Sklearn进行数据预处理

摘要：这篇文章主要讲解使用Sklearn进行数据预处理，我们使用Kaggle中泰坦尼克号事件的数据作为样本。读取数据并创建数据表格，查看数据相关信息表格内容如下所示填充缺失值（数据预处理的第一步就是处理缺失值）对于缺失值不多不少的数据特征，我们可以使用机器学习模型进行缺失值得填充，例如随机森林，逻阅读全文

posted @ 2018-01-28 21:42 DUDUDA 阅读(725) 评论(0) 推荐(0) 编辑

【Sklearn系列】KNN算法

摘要：最近邻分类概念讲解我们使用的是scikit learn 库中的neighbors.KNeighborsClassifier 来实行KNN. n_neighbors 是用来确定多数投票规则里的K值，也就是在点的周围选取K个值最为总体范围 weights : 这个参数很有意思，它的作用是在进行分类判阅读全文

posted @ 2018-01-28 18:16 DUDUDA 阅读(6905) 评论(0) 推荐(0) 编辑

2018年1月27日

【Kaggle】泰坦尼克号

摘要：引言 "Kaggle官方网站" 这是泰坦尼克号事件的基本介绍：我们需要做的就是通过给出的数据集，通过对特征值的分析以及运用机器学习模型，分析什么样的人最可能存活，并给出对测试集合的预测。对于Kaggle，我认为大体上有这么几个步骤： 1. 读取数据 pd.read_csv('文件地址.csv') 阅读全文

posted @ 2018-01-27 21:49 DUDUDA 阅读(352) 评论(0) 推荐(0) 编辑

2018年1月25日

博文目录

摘要：为了记录自己的学习路程，特梳理目录如下： "每日学习记录" "如何成为一名优秀算法工程师 1" "如何成为一名优秀算法工程师 2" "开源书籍" "开源书籍" 深度学习系列书籍： Neural Network and Deep Learning github https://github.com/ 阅读全文

posted @ 2018-01-25 03:07 DUDUDA 阅读(196) 评论(0) 推荐(0) 编辑

【机器学习算法基础+实战系列】KNN算法

摘要： k 近邻法（K nearest neighbor）是一种基本的分类方法基本思路：给定一个训练数据集，对于新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例多数属于某个类别，就把输入实例分为这个类。算法：输入：训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y 阅读全文

posted @ 2018-01-25 02:30 DUDUDA 阅读(279) 评论(0) 推荐(0) 编辑

公告