凯心宝牙 - 博客园

2018年2月3日

摘要：原文链接：http://blog.itpub.net/30089851/viewspace-2136429/ 1.登录nn机器,进入最新序号的namenode配置文件夹,查看当前的nn的log4j配置[root@sht-sgmhadoopnn-01 ~]# cd /var/run/cloudera- 阅读全文

posted @ 2018-02-03 23:09 凯心宝牙阅读(340) 评论(0) 推荐(0) 编辑

2017年12月3日

转 Spark参数配置

摘要：原文地址：http://blog.csdn.net/qq_32252917/article/details/78529916 下面是整理的Spark中的一些配置参数，官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统： Spark属性：控制大部分的应用程序参数阅读全文

posted @ 2017-12-03 16:17 凯心宝牙阅读(229) 评论(0) 推荐(0) 编辑

转 hive表操作

摘要： https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable 一、创建表方式1 创建了一个emp表，这个表存属于hi 阅读全文

posted @ 2017-12-03 00:40 凯心宝牙阅读(263) 评论(0) 推荐(0) 编辑

转使用阿里云的Maven仓库加速Spark编译过程

摘要：前言在国内编译Spark项目需要从Maven源下载很多依赖包，官方源在国内大环境下的下载速度大家都懂得，那个煎熬啊，简直是浪费生命。如果你的下载速度很快，你现在就可以无视这篇文章了。阿里云给国内开发者提供了一个非常的良心的服务：提供了一个国内Maven镜像，可以让我们拜托这种煎熬。地址信息阅读全文

posted @ 2017-12-03 00:24 凯心宝牙阅读(559) 评论(0) 推荐(0) 编辑

Spark SQL整合Hive

摘要： Spark SQL官方释义一、使用Spark SQL访问Hive需要将$HIVE_HOME/conf下的hive-site.xml拷贝到$SPARK_HOME/conf下,如果集群没有安装hive那么就在$SPARK_HOME/conf 下创建一个hive-site.xml，再配置一下可以访问me 阅读全文

posted @ 2017-12-03 00:14 凯心宝牙阅读(4527) 评论(0) 推荐(0) 编辑

Scala 操作Mysql

摘要：一、工具IDEA+MAVEN 二、Pom文件添加依赖 1、更改成自己的scala版本 1 2 3 2、添加驱动依赖 1 2 3 4 5 三、代码书写 1、DBUtils 2、Operations 3、MySQLOperations 阅读全文

posted @ 2017-12-03 00:07 凯心宝牙阅读(6292) 评论(0) 推荐(0) 编辑

2017年12月2日

转 Scala更改文件目录结构

摘要：原文链接：http://blog.csdn.net/gavin_chun/article/details/78652638 原文件目录结构 1 更改后的目录结构 1 阅读全文

posted @ 2017-12-02 23:58 凯心宝牙阅读(365) 评论(0) 推荐(0) 编辑

100篇大数据文章[转]

摘要：摘要：PayPal高级工程总监Anil Madan写了篇大数据的文章，一共有100篇大数据的论文，涵盖大数据技术栈，全部读懂你将会是大数据的顶级高手。开源（Open Source）用之于大数据技术，其作用有二：一方面，在大数据技术变革之路上，开源在众人之力和众人之智推动下，摧枯拉朽，吐故纳新，扮演阅读全文

posted @ 2017-12-02 23:15 凯心宝牙阅读(503) 评论(0) 推荐(0) 编辑

【转载】Python中的正则表达式教程

摘要：本文http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 正则表达式经常被用到，而自己总是记不全，转载一份完整的以备不时之需。 1. 正则表达式基础 1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串阅读全文

posted @ 2017-12-02 23:12 凯心宝牙阅读(220) 评论(0) 推荐(0) 编辑

Spark共享变量

摘要：共享变量通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读写的共享变量是低效的。尽管如此，Spark提供了两种有阅读全文

posted @ 2017-12-02 23:03 凯心宝牙阅读(212) 评论(0) 推荐(0) 编辑

凯心大宝牙

公告