alunbar

2018年10月13日

摘要：现在机器学习行业持续加温，应届毕业生年薪持续走高，2019年毕业生算法岗年薪40万起，上不封顶，吸引着越来越多的人想往机器学习方向转。但是刚接触到算法时，看到那些数学公式都望而生畏，特别是公式的推导。今天本文就介绍机器学习会用到哪些数学知识，让那些想往机器学习方向转的同学心里有底，知道学习的方向。阅读全文

posted @ 2018-10-13 22:26 alunbar 阅读(1854) 评论(0) 推荐(2) 编辑

2018年10月12日

一起学Hive——使用MSCK命令修复Hive分区

摘要：最近在使用Hive的过程中，在备份数据时，经常会使用cp或mv命令来拷贝数据，将数据拷贝到我们新建备份表的目录下面，如果不是分区表，则上面的操作之后，新建的备份表可以正常使用，但是如果是分区表的，一般都是使用alter table add partition命令将分区信息添加到新建的表中，每添加一条阅读全文

posted @ 2018-10-12 06:08 alunbar 阅读(6427) 评论(0) 推荐(2) 编辑

2018年10月11日

一起学Hive——总结各种Join连接的用法

摘要： Hive支持常用的SQL join语句，例如内连接、左外连接、右外连接以及HiVe独有的map端连接。其中map端连接是用于优化Hive连接查询的一个重要技巧。在介绍各种连接之前，先准备好表和数据。 employee员工表： dept部门表：薪水表: employee员工表的数据如下： dept 阅读全文

posted @ 2018-10-11 06:09 alunbar 阅读(1529) 评论(0) 推荐(0) 编辑

2018年10月9日

机器学习100天——实现简单线性回归(第二天)

摘要： layout: article title: 机器学习100天——实现简单线性回归(第二天) mathjax: true 线性回归算法的作用是使用单一特征来预测响应值。是一种根据自变量X预测因变量Y的方法。假设两个变量是线性相关的，那么我们要找到一个线性函数，根据特征或自变量X来精确预测响应值Y。阅读全文

posted @ 2018-10-09 06:11 alunbar 阅读(799) 评论(0) 推荐(0) 编辑

2018年10月8日

一起学Hive——详解四种导入数据的方式

摘要：在使用Hive的过程中，导入数据是必不可少的步骤，不同的数据导入方式效率也不一样，本文总结Hive四种不同的数据导入方式：从本地文件系统导入数据从HDFS中导入数据从其他的Hive表中导入数据创建表的同时导入数据使用导入数据时，会使用到into和overwrite into两个关键字，in 阅读全文

posted @ 2018-10-08 06:29 alunbar 阅读(19309) 评论(0) 推荐(1) 编辑

2018年10月6日

一起学Hive——创建内部表、外部表、分区表和分桶表及导入数据

摘要： Hive本身并不存储数据，而是将数据存储在Hadoop的HDFS中，表名对应HDFS中的目录/文件。根据数据的不同存储方式，将Hive表分为外部表、内部表、分区表和分桶表四种数据模型。每种数据模型各有优缺点。通过create user命令创建user表时，会在HDFS中生成一个user目录/文件。阅读全文

posted @ 2018-10-06 22:04 alunbar 阅读(1760) 评论(0) 推荐(0) 编辑

2018年9月29日

Apache Pulsar——企业级消息订阅系统介绍

摘要： Apache Pulsar是一款由雅虎开发的类似于Kafka的企业级消息订阅系统，在2016将其开源，由Apach基金会孵化，现在已经成长为Apache基金会的顶级项目。Pulsar在雅虎内部已经运行了三年，服务于众多的应用，主要有雅虎邮箱、雅虎财务系统、雅虎运动、Flickr、Gemini广告平台阅读全文

posted @ 2018-09-29 23:53 alunbar 阅读(3636) 评论(0) 推荐(1) 编辑

2018年9月22日

一起学Hadoop——实现两张表之间的连接操作

摘要：恢复内容开始之前我们都是学习使用MapReduce处理一张表的数据（一个文件可视为一张表，hive和关系型数据库Mysql、Oracle等都是将数据存储在文件中）。但是我们经常会遇到处理多张表的场景，不同的数据存储在不同的文件中，因此Hadoop也提供了类似传统关系型数据库的join操作。Hado 阅读全文

posted @ 2018-09-22 12:06 alunbar 阅读(2004) 评论(0) 推荐(0) 编辑

2018年9月13日

一起学Hadoop——文件的上传、分发与打包

摘要：如果我们想把文件上传到Hadoop集群中，使用put命令即可。下面的语句是将本地文件上传到hadoop集群的/目录下。 hadoop fs -put fruit.txt / 下面介绍通过脚本将文件分发到Hadoop集群的方法。因为Hadoop本身就带有文件自动分发的功能，我们只需在启动hadoop作阅读全文

posted @ 2018-09-13 23:27 alunbar 阅读(3607) 评论(0) 推荐(0) 编辑

2018年9月12日

机器学习100天——数据预处理(第一天)

摘要：有个叫Avik Jain的老外在github上发起了一个100天学习机器学习的项目，每天花一个小时学习机器学习，学习内容由浅入深。今天是第一天，内容是如何进行数据预处理。该教程的编程语言是Python。数据预处理分为6步：第一步：导入NumPy和Pandas库。NumPy和Pandas是每次都要阅读全文

posted @ 2018-09-12 23:23 alunbar 阅读(1913) 评论(1) 推荐(0) 编辑

公告