摘要:
Hive是一种底层封装了Hadoop的数据仓库处理工具,使用类SQL的HiveQL语言实现数据查询分析。Hive的数据存储在Hadoop兼容的文件系统(例如HDFS、Amazon S3)中,HiveQL查询会转化为MapReduce程序在Hadoop集群上执行。 在优化时,把Hive SQL当作Ma 阅读全文
摘要:
RDD:弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 五大特性: —分区列表,RDD中的数据都存在一个分区列表里面 —作用在每一个分区中的函数 —RDD依赖于其他多个RDD —Partitioner针对KV类型的RDD —数据本地性,数据位 阅读全文
摘要:
回顾MapReduce的计算过程 Spark对比MapReduce Spark是借鉴了MapReduce的思想并在其基础上发展起来的,继承了其分布式计算的优点并改进其缺陷,但两者也有不少的差异如下: 1.spark更快,spark把运行的之间数据存放在内存,迭代计算效率高;mapreduce的之间结 阅读全文
摘要:
1.配置 安装Hadoop:需要安装HDFS模块和YARN模块,spark运行时要把jar包放到HDFS上。 安装Spark:不需要启动Spark集群,在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录,Spark程序将作为yarn的客户端用户提交任务。 阅读全文
摘要:
1.我们安装Hive的时候的版本为1.2.2,我们要下载1.2.2版本的web端的配置包apache-hive-1.2.2-src.tar.gz,下载地址:http://mirrors.shu.edu.cn/apache/hive/hive-1.2.2/ 2.解压,打包 3.把war包放到lib目录 阅读全文
摘要:
val conf = new SparkConf().setAppName("UserCF").setMaster("local[2]") val spark=SparkSession.builder().enableHiveSupport().config(conf).getOrCreate() val df = spark.sql("select user_id, item_id, rati... 阅读全文
摘要:
package Test; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.HashMap; import java.uti 阅读全文
摘要:
/ 手机号:目前全国有27种手机号段。 移动有16个号段:134、135、136、137、138、139、147、150、151、152、157、158、159、182、187、188。其中147、157、188是3G号段,其他都是2G号段。 联通有7种号段:130、131、132、155、156、 阅读全文