2018年5月18日

spark机器学习

摘要: 多层感知器(MLP) 阅读全文

posted @ 2018-05-18 09:03 NothingLZ 阅读(163) 评论(0) 推荐(0) 编辑

2018年5月9日

spark笔记

摘要: spark on yarn yarn client :适用于交互和调试 1.Driver在任务提交机器上执行 2.ApplicationMaster只负责向ResourceManager申请executor需要的资源 3.基于yarn时,spark-shell和pyspark必须要使用yarn-cl 阅读全文

posted @ 2018-05-09 18:30 NothingLZ 阅读(107) 评论(0) 推荐(0) 编辑

2018年5月5日

hive查询操作

摘要: 阅读全文

posted @ 2018-05-05 15:34 NothingLZ 阅读(100) 评论(0) 推荐(0) 编辑

2018年5月4日

推荐算法概述

摘要: 推荐算法概览(一) 为推荐系统选择正确的推荐算法非常重要,而可用的算法很多,想要找到最适合所处理问题的算法还是很有难度的。这些算法每种都各有优劣,也各有局限,因此在作出决策前我们应当对其做以衡量。在实践中,我们很可能需要测试多种算法,以便找出最适合用户的那种;了解这些算法的概念以及工作原理,对它们有 阅读全文

posted @ 2018-05-04 17:17 NothingLZ 阅读(2266) 评论(0) 推荐(0) 编辑

2018年4月24日

Linux系统如何模拟Http的get或post请求?

摘要: 一、get请求: 1、使用curl命令: curl “http://www.baidu.com” 如果这里的URL指向的是一个文件或者一幅图都可以直接下载到本地 curl -i “http://www.baidu.com” 显示全部信息 curl -l “http://www.baidu.com” 阅读全文

posted @ 2018-04-24 16:10 NothingLZ 阅读(8085) 评论(0) 推荐(0) 编辑

2018年4月21日

sqoop上传数据到hdfs,并用hive管理数据。

摘要: 第一类:数据库中的数据导入到HDFS上 # sqoop import --connect jdbc:mysql://hdp-server-01:3306/baba --username root --password root --table bbs_detail 指定输出路径、指定数据分隔符 # 阅读全文

posted @ 2018-04-21 12:29 NothingLZ 阅读(255) 评论(0) 推荐(0) 编辑

配置hive元数据数据库

摘要: 1 2 3 javax.jdo.option.ConnectionURL 4 jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true 5 6 7 8 javax.jdo.option.ConnectionDriverName 9 com.mysql.jdbc.Driver 10 ... 阅读全文

posted @ 2018-04-21 11:19 NothingLZ 阅读(216) 评论(0) 推荐(0) 编辑

2018年4月18日

利用pandas将numpy数组导出生成excel

摘要: 代码 转载:https://blog.csdn.net/qq_33039859/article/details/73440782 阅读全文

posted @ 2018-04-18 23:10 NothingLZ 阅读(7510) 评论(0) 推荐(0) 编辑

reduceByKey和groupByKey区别与用法

摘要: 在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。 针对pair RDD这样的特殊形式,spark中定义了 阅读全文

posted @ 2018-04-18 20:35 NothingLZ 阅读(1812) 评论(0) 推荐(0) 编辑

python一些东西

摘要: assert repr() 阅读全文

posted @ 2018-04-18 00:01 NothingLZ 阅读(141) 评论(0) 推荐(0) 编辑

导航