DamonDr - 博客园

2017年8月6日

摘要：（一）HA下配置spark 1，spark版本型号：spark-2.1.0-bin-hadoop2.7 2，解压，修改配置环境变量 3，修改spark-env.sh文件 4，修改slaves文件 5，分发及启动各个节点jps情况： [root@ha1 spark-2.1.0]# jps 2464 阅读全文

posted @ 2017-08-06 19:01 DamonDr 阅读(332) 评论(0) 推荐(0)

2017年8月2日

HA分布式集群一hadoop+zookeeper

摘要：一：HA分布式配置的优势： 1，防止由于一台namenode挂掉，集群失败的情形 2，适合工业生产的需求二：HA安装步骤： 1，安装虚拟机 1，型号：VMware_workstation_full_12.5.0.11529.exe linux镜像：CentOS-7-x86_64-DVD-1611. 阅读全文

posted @ 2017-08-02 18:59 DamonDr 阅读(910) 评论(0) 推荐(0)

HA分布式集群二hive配置

摘要：一，概念 hive:是一种数据仓库，数据储存在：hdfs上，hsql是由替换简单的map-reduce，hive通过mysql来记录映射数据二，安装 1，mysql安装： 1，检测是否有mariadb 2，安装前准备： 3，配置mysql： 2，hive安装(hive-2.1.1) 1，安装前配置阅读全文

posted @ 2017-08-02 18:59 DamonDr 阅读(1828) 评论(0) 推荐(0)

2017年7月25日

win下写任务提交给集群

摘要：一，复制和删除hdfs中的文件异常：Spark错误：WARN TaskSchedulerImpl: Initial job has not accepted any resources;idea中没错误显示，可以去8080看异常显示 1，集群中的每台机子添加自己win的主机名和ip 2，关闭防火墙阅读全文

posted @ 2017-07-25 16:20 DamonDr 阅读(1667) 评论(0) 推荐(0)

2017年7月18日

win10下将spark的程序提交给远程集群中运行

摘要：一，开发环境：操作系统：win19 64位 IDE：IntelliJ IDEA JDK：1.8 scala:scala-2.10.6 集群：linux上cdh集群，其中spark为1.5.2,hadoop:2.6.0（其实我也想用spark最新版和hadoop的最新版，但1.6以前有spark-a 阅读全文

posted @ 2017-07-18 10:54 DamonDr 阅读(1683) 评论(1) 推荐(0)

2017年7月10日

Scala快学笔记（三）

摘要：一，文件操作： 1，读取行：val source=Source.fromFile("fileName","utf-8) 形成一个字符串：source.mkString 从网络中读取：val source=Source.fromURL("http://www.baidu.com","utf-8") 阅读全文

posted @ 2017-07-10 21:07 DamonDr 阅读(230) 评论(0) 推荐(0)

2017年7月9日

Scala快学笔记（二）

摘要：一，基本概念 1，映射 Map与HashMap与TreeMap，SotredMap等区别： 1、HashMap键无序，它根据键的HashCode值存储数据,根据键可以直接获取它的值，具有很快的访问速度，在Map 中插入、删除和定位元素，HashMap 是最好的选择； 2、LinkedHashMap 阅读全文

posted @ 2017-07-09 21:50 DamonDr 阅读(370) 评论(0) 推荐(0)

2017年7月8日

Scala快学笔记（一）

摘要：一，基本概念： 1，Scala是一种基于JVM的面向对象和函数式编程语言 2，基本类型：数值类型 -》：Byte,Short,Int,Long,Float,Double和布尔类型：Boolean和字符类型：Char Java基本数据类型总结小数如何转为十进制精度转换造成精度损失 question 阅读全文

posted @ 2017-07-08 10:41 DamonDr 阅读(307) 评论(0) 推荐(0)

2017年7月3日

统计学习方法三 kNN

摘要： KNN (一）KNN概念： K近邻算法是一种回归和分类算法，这主要讨论其分类概念： K近邻模型三要素： 1，距离： 2，K值的选择： K值选择过小：模型过复杂，近似误差减小，估计误差上升，出现过拟合 K值选择过大：模型过于简单，预测能力弱 K值的选择：可以通过交叉验证来确定，k一般取一个较小的值 3 阅读全文

posted @ 2017-07-03 09:09 DamonDr 阅读(420) 评论(0) 推荐(0)

2017年6月30日

统计学习方法二感知机

摘要：感知机（一）概念 1，定义：（二），学习策略 1，线性可分：存在一个超平面将正实例和负实例划分开来，反之不可分 2，学习策略：寻找极小损失函数，通过计算误分点到超平面的距离 3，学习算法即求解损失函数最优化的算法，借用随机梯度下降法 3.1 原始形式学习率也叫步长（0,1] 例题： pyt 阅读全文

posted @ 2017-06-30 23:24 DamonDr 阅读(525) 评论(0) 推荐(0)

SparkDr

公告