07 2017 档案

摘要:一,复制和删除hdfs中的文件 异常:Spark错误:WARN TaskSchedulerImpl: Initial job has not accepted any resources;idea中没错误显示,可以去8080看异常显示 1,集群中的每台机子添加自己win的主机名和ip 2,关闭防火墙 阅读全文
posted @ 2017-07-25 16:20 DamonDr 阅读(1654) 评论(0) 推荐(0)
摘要:一,开发环境: 操作系统:win19 64位 IDE:IntelliJ IDEA JDK:1.8 scala:scala-2.10.6 集群:linux上cdh集群,其中spark为1.5.2,hadoop:2.6.0(其实我也想用spark最新版和hadoop的最新版,但1.6以前有spark-a 阅读全文
posted @ 2017-07-18 10:54 DamonDr 阅读(1666) 评论(1) 推荐(0)
摘要:一 ,文件操作: 1,读取行:val source=Source.fromFile("fileName","utf-8) 形成一个字符串:source.mkString 从网络中读取:val source=Source.fromURL("http://www.baidu.com","utf-8") 阅读全文
posted @ 2017-07-10 21:07 DamonDr 阅读(223) 评论(0) 推荐(0)
摘要:一,基本概念 1,映射 Map与HashMap与TreeMap,SotredMap等区别: 1、HashMap键无序,它根据键的HashCode值存储数据,根据键可以直接获取它的值,具有很快的访问速度,在Map 中插入、删除和定位元素,HashMap 是最好的选择; 2、LinkedHashMap 阅读全文
posted @ 2017-07-09 21:50 DamonDr 阅读(355) 评论(0) 推荐(0)
摘要:一,基本概念: 1,Scala是一种基于JVM的面向对象和函数式编程语言 2,基本类型:数值类型 -》:Byte,Short,Int,Long,Float,Double和布尔类型:Boolean和字符类型:Char Java基本数据类型总结 小数如何转为十进制 精度转换造成精度损失 question 阅读全文
posted @ 2017-07-08 10:41 DamonDr 阅读(295) 评论(0) 推荐(0)
摘要:KNN (一)KNN概念: K近邻算法是一种回归和分类算法,这主要讨论其分类概念: K近邻模型三要素: 1,距离: 2,K值的选择: K值选择过小:模型过复杂,近似误差减小,估计误差上升,出现过拟合 K值选择过大:模型过于简单,预测能力弱 K值的选择:可以通过交叉验证来确定,k一般取一个较小的值 3 阅读全文
posted @ 2017-07-03 09:09 DamonDr 阅读(400) 评论(0) 推荐(0)