06 2018 档案

摘要:解析url scala> import java.net.URLimport java.net.URL scala> val urlstr="http://www.baidu.com:8899/getUsername?userid=110&sysId=552" urlstr: String = ht 阅读全文

posted @ 2018-06-29 18:23 打杂滴 阅读(359) 评论(0) 推荐(0) 编辑 |

摘要:启动spark-shell 如果你有一个Hadoop 集群, 并且Hadoop 版本支持YARN, 通过为Spark master 设定yarn-client 参数值,就可以在集群上启动Spark 作业:$ spark-shell --master yarn-client如果你是在自己的计算机上运行 阅读全文

posted @ 2018-06-29 16:22 打杂滴 阅读(160) 评论(0) 推荐(0) 编辑 |

摘要:Spark 用来操作结构化和半结构化数据的接口——Spark SQL。结构化数据是指任何有结构信息的数据。所谓结构信息,就是每条记录共用的已知的字段集合。当数据符合这样的条件时,Spark SQL 就会使得针对这些数据的读取和查询变得更加简单高效。 Spark SQL 提供了以下三大功能: (1) 阅读全文

posted @ 2018-06-27 16:41 打杂滴 阅读(264) 评论(0) 推荐(0) 编辑 |

摘要:使用SparkConf配置Spark 对Spark 进行性能调优,通常就是修改Spark 应用的运行时配置选项。Spark 中最主要的配置机制是通过SparkConf 类对Spark 进行配置。当创建出一个SparkContext 时,就需要创建出一个SparkConf 的实例. 在Scala 中使 阅读全文

posted @ 2018-06-27 14:56 打杂滴 阅读(270) 评论(0) 推荐(0) 编辑 |

摘要:Spark 可以在各种各样的集群管理器(Hadoop YARN、Apache Mesos,还有Spark 自带的独立集群管理器)上运行,所以Spark 应用既能够适应专用集群,又能用于共享的云计算环境。 在分布式环境下,Spark 集群采用的是主/ 从结构。在一个Spark 集群中,有一个节点负责中 阅读全文

posted @ 2018-06-27 11:03 打杂滴 阅读(230) 评论(0) 推荐(0) 编辑 |

摘要:Spark 的两个共享变量:累加器(accumulator)与广播变量(broadcast variable)。 累加器用来对信息进行聚合,而广播变量用来高效分发较大的对象。 在Scala 中累加空行: scala> val testrdd=sc.textFile("hdfs://localhost 阅读全文

posted @ 2018-06-26 16:14 打杂滴 阅读(151) 评论(0) 推荐(0) 编辑 |

摘要:Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark 扩展了广泛使用的MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。在处理大规模数据集时,速度是非常重要的。Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上 阅读全文

posted @ 2018-06-21 10:53 打杂滴 阅读(306) 评论(0) 推荐(0) 编辑 |

摘要:scala> import org.apache.spark.SparkContext import org.apache.spark.SparkContext scala> import org.apache.spark.SparkConf import org.apache.spark.Spar 阅读全文

posted @ 2018-06-20 15:52 打杂滴 阅读(209) 评论(0) 推荐(0) 编辑 |

摘要:RDD是Spark建立之初的核心API。RDD是不可变分布式弹性数据集,在Spark集群中可跨节点分区,并提供分布式low-level API来操作RDD,包括transformation和action。 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是S 阅读全文

posted @ 2018-06-20 14:29 打杂滴 阅读(392) 评论(0) 推荐(0) 编辑 |

摘要:Load运算符 你可以使用 Pig Latin 的 LOAD 运算符,从文件系统(HDFS / Local)将数据加载到Apache Pig中。 语法 load语句由两部分组成,用“=”运算符分隔。在左侧,需要提到我们想要存储数据的关系的名称;而在右侧,我们需要定义如何存储数据。下面给出了 Load 阅读全文

posted @ 2018-06-15 15:33 打杂滴 阅读(475) 评论(0) 推荐(0) 编辑 |

摘要:pig的两种运行模式,local模式,mapreduce模式 local模式下,pig只能访问本地一台;在mapreduce模式下,pig可以访问一个hadoop集群和hdfs的安装位置。这时,pig将自动对这个集群进行分配和回收。因为pig系统可以自动对mapreduce程序进行优化,所以当用户使 阅读全文

posted @ 2018-06-15 10:29 打杂滴 阅读(742) 评论(0) 推荐(0) 编辑 |

摘要:hadoop生态圈 主要从hdfs底层存储,hbase数据库,hive数据仓库,flume收集,Kafka缓存,zookeeper分布式协调服务,spark大数据分析,sqoop数据互转 hdfs分布式文件系统,高容错的特点,可以部署在廉价的硬件上,设计目标:检查和快速修复硬件故障;流式访问;简化一 阅读全文

posted @ 2018-06-15 10:28 打杂滴 阅读(221) 评论(0) 推荐(0) 编辑 |

摘要:Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。 要使用 Apache Pig 分析数据,程序员需要使用Pig Latin 阅读全文

posted @ 2018-06-15 10:28 打杂滴 阅读(1501) 评论(0) 推荐(0) 编辑 |

摘要:1.通过cli直接执行 2.hive -e "hql" 如:[root@host ~]# hive -e "use gamedw;show tables" [root@host ~]# hive -e 'use gamedw;show tables' 3.执行文件[root@host tmpdata 阅读全文

posted @ 2018-06-12 16:31 打杂滴 阅读(287) 评论(0) 推荐(0) 编辑 |

摘要: 阅读全文

posted @ 2018-06-12 15:19 打杂滴 阅读(85) 评论(0) 推荐(0) 编辑 |

摘要:下例根据20180605号的登录计算历史N天留存,本例未加注册时间限制 select a.DateID,a.platid,DATEDIFF(cast(c.DateID as datetime),cast(a.DateID as datetime)),count(distinct a.Accid) f 阅读全文

posted @ 2018-06-11 14:32 打杂滴 阅读(135) 评论(0) 推荐(0) 编辑 |

摘要:Linux 中有好多中不同的shell,但是通常我们使用bash (bourne again shell) 进行shell编程,因为bash是免费的并且很容易使用。 脚本通常以下语句开始: #!/bin/sh 符号#!用来告诉系统它后面的参数是用来执行该文件的程序 cd / 是回到根目录 cd 当前 阅读全文

posted @ 2018-06-08 10:13 打杂滴 阅读(112) 评论(0) 推荐(0) 编辑 |

摘要:hbase是hadoop的数据库,能够对大数据提供随机实时的读写访问功能,具有开源,分布式,可扩展行,面向列存储的特点。hbase的目标是存储并处理大量的数据。 它可以直接使用本地文件系统,也可以使用hdfs文件存储系统。使用 hdfs更加稳妥。 hbase存储的是松散数据。存储的数据可以理解为ke 阅读全文

posted @ 2018-06-07 17:41 打杂滴 阅读(122) 评论(0) 推荐(0) 编辑 |

摘要:将查询结果写入到本地指定目录(也可以写入hdfs) insert overwrite local directory '/root/tmpdata/queryout_20180607' select * from gamedw.t_name where id=1 一个源可以同时插入到多个目标表或目标 阅读全文

posted @ 2018-06-07 15:14 打杂滴 阅读(202) 评论(0) 推荐(0) 编辑 |

摘要:hive是hadoop的一个重要子项目,利于mapreduce编程技术,实现部分sql语句,提供类SQL的编程接口。 hive是一个基于hadoop文件系统的数据仓库架构,它为数据仓库管理提供了许多功能:数据ETL,数据存储管理,大数据集的查询和分析能力。 由于hadoop是批处理系统,任务是高延迟 阅读全文

posted @ 2018-06-07 14:06 打杂滴 阅读(362) 评论(0) 推荐(0) 编辑 |

摘要:Specifies the column to be examined when determining which rows to import. (the column should not be of type CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/ 阅读全文

posted @ 2018-06-06 16:32 打杂滴 阅读(534) 评论(0) 推荐(0) 编辑 |

摘要:hive导入数据到mysql最简单的方式就是从hdfs直接读取hive表文件导入mysql,当然这需要知道数据表保存的目录 如果能直接从表到表的导入,无需路径,当然是最好了 1.需要下载合适的hive-hcatalog-core-*.jar,分别复制到hive以及sqoop对应的lib目录下,并且配 阅读全文

posted @ 2018-06-06 10:06 打杂滴 阅读(577) 评论(0) 推荐(0) 编辑 |

随笔 - 224, 文章 - 0, 评论 - 1, 阅读 - 12万

Copyright © 2025 打杂滴
Powered by .NET 9.0 on Kubernetes

点击右上角即可分享
微信分享提示