摘要:
spark和mapreduced 的区别map的时候处理的时候要落地磁盘 每一步都会落地磁盘 reduced端去拉去的话 基于磁盘的迭代spark是直接再内存中进行处理 dag 执行引擎是一个job的优化 将一个job话成很多快 分成多个task去跑任务 读取数据来源比喻亚马逊的s3 和hbase很 阅读全文
摘要:
scala基本语法scala函数1 def定义方法2 方法的返回值类型可以省略3 方法体重最后一行计算结果可以返回 return 如果省略方法类型4 方法参数 要指定类型5 如果方法体可以一步搞定 方法体中的{}可以省略6 定义方法=可以省略,省略之后,无论方法体重最后的计算结果是那些都会被丢弃二 阅读全文
摘要:
对于Storm来说:1、建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进行金融交易和分析2、此外,如果对于实时计算的功能中,要求可靠的事务机制和可靠性机制,即数据的处理完全精准,一条也不能多,一条也不能少,也可以考虑使用Storm3、如果还需要针对高峰低峰时间段 阅读全文
摘要:
1.1 缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries1.2 缺少hadoop.dllUnable to load native-hadoop library for yo 阅读全文
摘要:
1.Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。 2.SQuirrel SQL Client 从http://squirrel 阅读全文
摘要:
// spark应用程序终止前有效df.createOrReplaceGlobalTempView("tempViewName") 取消注册:spark.catalog.dropTempView("tempViewName")spark.catalog.dropGlobalTempView("tem 阅读全文
摘要:
<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source>1.8</source> <target>1.8</t 阅读全文
摘要:
一,/home/hadoop/tmp/dfs/name/current 目录下查看文件二,1.stop hadoop所有的服务;2.重新格式化namenode即可: hadoop根目录下: hadoop namenode -format 重新格式化完就好了重新格式化完后要更改文件目录权限hadoop 阅读全文
摘要:
比如我的项目在 F/Myjar F:\Myjar>ll'll' 不是内部或外部命令,也不是可运行的程序或批处理文件。 F:\Myjar>cd mian系统找不到指定的路径。 F:\Myjar>cd java系统找不到指定的路径。 F:\Myjar>cd src F:\Myjar\src>cd mai 阅读全文
摘要:
[root@node3 ~]# yum -y install make gcc Loaded plugins: fastestmirror, langpacksLoading mirror speeds from cached hostfile * base: centos.ustc.edu.cn 阅读全文