摘要: 一. DDL数据定义 创建数据库 1)create database db_hive; 2)避免要创建的数据库已经存在错误,增加 if not exists 判断。 create database if not exists db_hive; 3)创建一个数据库,指定数据库在 HDFS 上存放的位置 阅读全文
posted @ 2020-01-26 10:18 菜白小系瓦 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 一. 基本数据类型 对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。 二. 集合数据类型 练习: 1)新建一个文本存储数据 2)建表并把数据加载进去 3)查看表的内容 三 阅读全文
posted @ 2020-01-26 10:12 菜白小系瓦 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 一. Hive基础概念 我自己本人一开始学习Hive的时候,最大的疑问就是hive和hbase到底有什么区别?(因为自己本身学校课程设置问题有了解到一丢丢hbase的知识) 所以先甩一篇博客提供给跟我一样有疑问的同学。https://blog.csdn.net/vipyeshuai/article/ 阅读全文
posted @ 2020-01-26 10:10 菜白小系瓦 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 报错信息: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to move source hdfs://localhost:9000/tmp/hive/daisy/185ccfc8 阅读全文
posted @ 2020-01-24 15:31 菜白小系瓦 阅读(2453) 评论(0) 推荐(0) 编辑
摘要: 一不小心电脑没电关机之后虚拟机就挂了,然后下定决心重新搭一个虚拟机。 以下是几天安装过程的记录以及一些小提示,包括在ubuntu中安装jdk1.8+mysql5.7.28+Hadoop2.7.7+hive3.1.2 一. 安装jdk1.8 首先记住不要搜java之后进入oracle官网!不然后续hi 阅读全文
posted @ 2020-01-19 16:38 菜白小系瓦 阅读(462) 评论(1) 推荐(0) 编辑
摘要: 1.virtual box 扩充磁盘空间 D:\VirtualBox\VBoxManage.exe modifyhd "E:\virtual box\daisyyun\daisyyun.vdi" --resize 25000“D:\VirtualBox\VBoxManage.exe”为VBoxMan 阅读全文
posted @ 2020-01-19 16:30 菜白小系瓦 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 一.逻辑回归 解决二分类问题的利器,算法自动分为0和1,比如设广告被点击为1,不被点击为0。 sigmoid函数: 1.公式 输出:[0,1]区间的概率值,默认0.5作为阀值 注:g(z)为sigmoid函数 2. 对数似然损失函数 1) cost损失的值越小,那么预测的类别准确度更高 2) 出现的 阅读全文
posted @ 2020-01-11 15:38 菜白小系瓦 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 一.线性回归 1.定义 线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合。 2.公式 3.损失函数 检验误差大小: 为第个训练样本的真实值 为第个训练样本特征值组合预测函数 总损失定义: 又称最小二乘法 目的是找到最小损失对应的W 阅读全文
posted @ 2020-01-11 15:35 菜白小系瓦 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 一.K-近邻算法 1.定义 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 2.API sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') l 阅读全文
posted @ 2020-01-11 15:14 菜白小系瓦 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 一.机器学习应用场景 1)自然语言处理 2)无人驾驶 3)计算机视觉 4)推荐系统 二.特征工程 1.数据类型 1)离散型数据 由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。 2)连续型数据 变量可以在某个范围内取任一数, 阅读全文
posted @ 2020-01-11 14:57 菜白小系瓦 阅读(222) 评论(0) 推荐(0) 编辑