再见、梦想

2018年9月27日

摘要： Hive是一种底层封装了Hadoop的数据仓库处理工具，使用类SQL的HiveQL语言实现数据查询分析。Hive的数据存储在Hadoop兼容的文件系统（例如HDFS、Amazon S3）中，HiveQL查询会转化为MapReduce程序在Hadoop集群上执行。在优化时，把Hive SQL当作Ma 阅读全文

posted @ 2018-09-27 11:04 再见、梦想阅读(920) 评论(0) 推荐(0) 编辑

2018年9月16日

RDD

摘要： RDD：弹性分布式数据集，是spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。五大特性： —分区列表，RDD中的数据都存在一个分区列表里面 —作用在每一个分区中的函数 —RDD依赖于其他多个RDD —Partitioner针对KV类型的RDD —数据本地性，数据位阅读全文

posted @ 2018-09-16 13:20 再见、梦想阅读(221) 评论(0) 推荐(0) 编辑

从Hadoop MapReduce到Spark

摘要：回顾MapReduce的计算过程 Spark对比MapReduce Spark是借鉴了MapReduce的思想并在其基础上发展起来的，继承了其分布式计算的优点并改进其缺陷，但两者也有不少的差异如下： 1.spark更快，spark把运行的之间数据存放在内存，迭代计算效率高；mapreduce的之间结阅读全文

posted @ 2018-09-16 09:50 再见、梦想阅读(206) 评论(0) 推荐(0) 编辑

2018年9月15日

Spark on yarn模式

摘要： 1.配置安装Hadoop：需要安装HDFS模块和YARN模块，spark运行时要把jar包放到HDFS上。安装Spark：不需要启动Spark集群，在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录，Spark程序将作为yarn的客户端用户提交任务。阅读全文

posted @ 2018-09-15 22:56 再见、梦想阅读(11246) 评论(0) 推荐(2) 编辑

Hive的web端配置——HWI

摘要： 1.我们安装Hive的时候的版本为1.2.2，我们要下载1.2.2版本的web端的配置包apache-hive-1.2.2-src.tar.gz，下载地址：http://mirrors.shu.edu.cn/apache/hive/hive-1.2.2/ 2.解压，打包 3.把war包放到lib目录阅读全文

posted @ 2018-09-15 10:00 再见、梦想阅读(336) 评论(0) 推荐(0) 编辑

Spark环境搭建

摘要： val conf = new SparkConf().setAppName("UserCF").setMaster("local[2]") val spark=SparkSession.builder().enableHiveSupport().config(conf).getOrCreate() val df = spark.sql("select user_id, item_id, rati... 阅读全文

posted @ 2018-09-15 08:25 再见、梦想阅读(109) 评论(0) 推荐(0) 编辑

2017年11月12日

java身份证号校验

摘要： package Test; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.HashMap; import java.uti 阅读全文

posted @ 2017-11-12 19:24 再见、梦想阅读(4744) 评论(0) 推荐(0) 编辑

2017年11月11日

java手机号码、电子邮箱校验

摘要： / 手机号:目前全国有27种手机号段。移动有16个号段：134、135、136、137、138、139、147、150、151、152、157、158、159、182、187、188。其中147、157、188是3G号段，其他都是2G号段。联通有7种号段：130、131、132、155、156、阅读全文

posted @ 2017-11-11 22:55 再见、梦想阅读(2547) 评论(0) 推荐(0) 编辑

方法总比困难多！！！

公告