摘要: [TOC] 标识符 可用的字符 处理括号类字符,分隔符之外,其他所有的可打印的ASCII字符,如字母,数字,下划线和美元符号($)均可出现在Scala标识符中 插入符包括了(,) [,] {,and} 分隔符包括 \` ' " . ; ,等 Scala还允许在标识符中使用编码在 \u0020到\u0 阅读全文
posted @ 2016-08-24 16:36 bovenson 阅读(4492) 评论(0) 推荐(1) 编辑
摘要: [TOC] Spark:一个独立应用 关于构建 Java和Scala 在Java和Scala中,只需要给你的应用添加一个对于spark core的Maven依赖. Python 在Python中,可以把应用写成脚本,然后使用Spark自带的bin/spark submit脚本来运行.spark su 阅读全文
posted @ 2016-08-24 09:07 bovenson 阅读(3118) 评论(0) 推荐(0) 编辑
摘要: [TOC] 保留字 | 保留字 | 说明 | | | | | abstract | 抽象声明 | | case | match表达式中的case子句;定义一个case类 | | catch | 捕捉抛出的异常 | | class | 声明一个类 | | def | 定义一个方法 | | do | 用 阅读全文
posted @ 2016-08-24 09:07 bovenson 阅读(4528) 评论(0) 推荐(0) 编辑
摘要: Spark:使用Spark Shell的两个示例 Python 行数统计 注意: 使用的是Hadoop的HDFS作为持久层,需要先配置Hadoop 命令行代码 如果运行出错,可以排查如下情况: Spark没有运行 没有放在对应的文件 结果示例 Scala 行数统计 命令及结果示例 阅读全文
posted @ 2016-08-24 09:06 bovenson 阅读(10820) 评论(0) 推荐(0) 编辑
摘要: Spark工作机制 主要模块 调度与任务分配 I/O模块 通信控制模块 容错模块 Shuffle模块 调度层次 应用 作业 Stage Task 调度算法 FIFO FAIR(公平调度) Spark应用执行机制 总览 Spark应用提交后经历了一系列的转换,最后成为Task在每个节点上执行. RDD 阅读全文
posted @ 2016-08-24 09:05 bovenson 阅读(4516) 评论(0) 推荐(0) 编辑
摘要: Spark:控制日志输出级别 终端修改 在 终端可使用下面命令来改变日志级别 修改日志设置文件 通过调整日志的级别来控制输出的信息量.减少 使用过程中在终端显示的日志. 切换当前路径到Spark安装路径 拷贝一份日志设置文件的模板文件 找到下面一行内容 改为如下 `log4j.rootCategor 阅读全文
posted @ 2016-08-24 09:05 bovenson 阅读(5689) 评论(0) 推荐(0) 编辑