摘要:
原文链接:http://blog.itpub.net/30089851/viewspace-2136429/ 1.登录nn机器,进入最新序号的namenode配置文件夹,查看当前的nn的log4j配置[root@sht-sgmhadoopnn-01 ~]# cd /var/run/cloudera- 阅读全文
摘要:
原文地址:http://blog.csdn.net/qq_32252917/article/details/78529916 下面是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数 阅读全文
摘要:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable 一、创建表方式1 创建了一个emp表,这个表存属于hi 阅读全文
摘要:
前言 在国内编译Spark项目需要从Maven源下载很多依赖包,官方源在国内大环境下的下载速度大家都懂得,那个煎熬啊,简直是浪费生命。 如果你的下载速度很快,你现在就可以无视这篇文章了。 阿里云给国内开发者提供了一个非常的良心的服务:提供了一个国内Maven镜像,可以让我们拜托这种煎熬。 地址信息 阅读全文
摘要:
Spark SQL官方释义 一、使用Spark SQL访问Hive需要将$HIVE_HOME/conf下的hive-site.xml拷贝到$SPARK_HOME/conf下,如果集群没有安装hive那么就在$SPARK_HOME/conf 下创建一个hive-site.xml,再配置一下可以访问me 阅读全文
摘要:
一、工具IDEA+MAVEN 二、Pom文件添加依赖 1、更改成自己的scala版本 1 2 3 2、添加驱动依赖 1 2 3 4 5 三、代码书写 1、DBUtils 2、Operations 3、MySQLOperations 阅读全文
摘要:
原文链接:http://blog.csdn.net/gavin_chun/article/details/78652638 原文件目录结构 1 更改后的目录结构 1 阅读全文
摘要:
摘要:PayPal高级工程总监Anil Madan写了篇大数据的文章,一共有100篇大数据的论文,涵盖大数据技术栈,全部读懂你将会是大数据的顶级高手。 开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演 阅读全文
摘要:
本文http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 正则表达式经常被用到,而自己总是记不全,转载一份完整的以备不时之需。 1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串 阅读全文
摘要:
共享变量 通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。尽管如此,Spark提供了两种有 阅读全文