2018 年 6月随笔档案 - 打杂滴

spark 常用技巧总结

摘要：解析url scala> import java.net.URLimport java.net.URL scala> val urlstr="http://www.baidu.com:8899/getUsername?userid=110&sysId=552" urlstr: String = ht 阅读全文

posted @ 2018-06-29 18:23 打杂滴阅读(359) 评论(0) 推荐(0) 编辑 |

spark高级编程

摘要：启动spark-shell 如果你有一个Hadoop 集群，并且Hadoop 版本支持YARN，通过为Spark master 设定yarn-client 参数值，就可以在集群上启动Spark 作业：$ spark-shell --master yarn-client如果你是在自己的计算机上运行阅读全文

posted @ 2018-06-29 16:22 打杂滴阅读(160) 评论(0) 推荐(0) 编辑 |

spark sql

摘要：Spark 用来操作结构化和半结构化数据的接口——Spark SQL。结构化数据是指任何有结构信息的数据。所谓结构信息，就是每条记录共用的已知的字段集合。当数据符合这样的条件时，Spark SQL 就会使得针对这些数据的读取和查询变得更加简单高效。 Spark SQL 提供了以下三大功能： (1) 阅读全文

posted @ 2018-06-27 16:41 打杂滴阅读(264) 评论(0) 推荐(0) 编辑 |

Spark调优与调试

摘要：使用SparkConf配置Spark 对Spark 进行性能调优，通常就是修改Spark 应用的运行时配置选项。Spark 中最主要的配置机制是通过SparkConf 类对Spark 进行配置。当创建出一个SparkContext 时，就需要创建出一个SparkConf 的实例. 在Scala 中使阅读全文

posted @ 2018-06-27 14:56 打杂滴阅读(270) 评论(0) 推荐(0) 编辑 |

在集群上运行Spark

摘要：Spark 可以在各种各样的集群管理器（Hadoop YARN、Apache Mesos，还有Spark 自带的独立集群管理器）上运行，所以Spark 应用既能够适应专用集群，又能用于共享的云计算环境。在分布式环境下，Spark 集群采用的是主/ 从结构。在一个Spark 集群中，有一个节点负责中阅读全文

posted @ 2018-06-27 11:03 打杂滴阅读(230) 评论(0) 推荐(0) 编辑 |

Spark编程进阶

摘要：Spark 的两个共享变量：累加器（accumulator）与广播变量（broadcast variable）。累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。在Scala 中累加空行： scala> val testrdd=sc.textFile("hdfs://localhost 阅读全文

posted @ 2018-06-26 16:14 打杂滴阅读(151) 评论(0) 推荐(0) 编辑 |

SPARK快学大数据分析概要

摘要：Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark 扩展了广泛使用的MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的。Spark 的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上阅读全文

posted @ 2018-06-21 10:53 打杂滴阅读(306) 评论(0) 推荐(0) 编辑 |

spark 练习

摘要：scala> import org.apache.spark.SparkContext import org.apache.spark.SparkContext scala> import org.apache.spark.SparkConf import org.apache.spark.Spar 阅读全文

posted @ 2018-06-20 15:52 打杂滴阅读(209) 评论(0) 推荐(0) 编辑 |

RDD、DataFrame、Dataset

摘要：RDD是Spark建立之初的核心API。RDD是不可变分布式弹性数据集，在Spark集群中可跨节点分区，并提供分布式low-level API来操作RDD，包括transformation和action。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是S 阅读全文

posted @ 2018-06-20 14:29 打杂滴阅读(392) 评论(0) 推荐(0) 编辑 |

pig latin

摘要：Load运算符你可以使用 Pig Latin 的 LOAD 运算符，从文件系统（HDFS / Local）将数据加载到Apache Pig中。语法 load语句由两部分组成，用“=”运算符分隔。在左侧，需要提到我们想要存储数据的关系的名称；而在右侧，我们需要定义如何存储数据。下面给出了 Load 阅读全文

posted @ 2018-06-15 15:33 打杂滴阅读(475) 评论(0) 推荐(0) 编辑 |

Pig latin基础

摘要：pig的两种运行模式，local模式，mapreduce模式 local模式下，pig只能访问本地一台；在mapreduce模式下，pig可以访问一个hadoop集群和hdfs的安装位置。这时，pig将自动对这个集群进行分配和回收。因为pig系统可以自动对mapreduce程序进行优化，所以当用户使阅读全文

posted @ 2018-06-15 10:29 打杂滴阅读(742) 评论(0) 推荐(0) 编辑 |

大数据相关常识

摘要：hadoop生态圈主要从hdfs底层存储，hbase数据库，hive数据仓库，flume收集，Kafka缓存，zookeeper分布式协调服务，spark大数据分析，sqoop数据互转 hdfs分布式文件系统，高容错的特点，可以部署在廉价的硬件上，设计目标：检查和快速修复硬件故障；流式访问；简化一阅读全文

posted @ 2018-06-15 10:28 打杂滴阅读(221) 评论(0) 推荐(0) 编辑 |

pig简介

摘要：Apache Pig是MapReduce的一个抽象。它是一个工具/平台，用于分析较大的数据集，并将它们表示为数据流。Pig通常与 Hadoop 一起使用；我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。要使用 Apache Pig 分析数据，程序员需要使用Pig Latin 阅读全文

posted @ 2018-06-15 10:28 打杂滴阅读(1501) 评论(0) 推荐(0) 编辑 |

hive命令的执行方式

摘要：1.通过cli直接执行 2.hive -e "hql" 如：[root@host ~]# hive -e "use gamedw;show tables" [root@host ~]# hive -e 'use gamedw;show tables' 3.执行文件[root@host tmpdata 阅读全文

posted @ 2018-06-12 16:31 打杂滴阅读(287) 评论(0) 推荐(0) 编辑 |

HQL/SQL

摘要：阅读全文

posted @ 2018-06-12 15:19 打杂滴阅读(85) 评论(0) 推荐(0) 编辑 |

留存计算

摘要：下例根据20180605号的登录计算历史N天留存，本例未加注册时间限制 select a.DateID,a.platid,DATEDIFF(cast(c.DateID as datetime),cast(a.DateID as datetime)),count(distinct a.Accid) f 阅读全文

posted @ 2018-06-11 14:32 打杂滴阅读(135) 评论(0) 推荐(0) 编辑 |

shell编程

摘要：Linux 中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。脚本通常以下语句开始： #!/bin/sh 符号#!用来告诉系统它后面的参数是用来执行该文件的程序 cd / 是回到根目录 cd 当前阅读全文

posted @ 2018-06-08 10:13 打杂滴阅读(112) 评论(0) 推荐(0) 编辑 |

hbase 简介

摘要：hbase是hadoop的数据库，能够对大数据提供随机实时的读写访问功能，具有开源，分布式，可扩展行，面向列存储的特点。hbase的目标是存储并处理大量的数据。它可以直接使用本地文件系统，也可以使用hdfs文件存储系统。使用 hdfs更加稳妥。 hbase存储的是松散数据。存储的数据可以理解为ke 阅读全文

posted @ 2018-06-07 17:41 打杂滴阅读(122) 评论(0) 推荐(0) 编辑 |

Hive QL

摘要：将查询结果写入到本地指定目录(也可以写入hdfs) insert overwrite local directory '/root/tmpdata/queryout_20180607' select * from gamedw.t_name where id=1 一个源可以同时插入到多个目标表或目标阅读全文

posted @ 2018-06-07 15:14 打杂滴阅读(202) 评论(0) 推荐(0) 编辑 |

hive简介

摘要：hive是hadoop的一个重要子项目，利于mapreduce编程技术，实现部分sql语句,提供类SQL的编程接口。 hive是一个基于hadoop文件系统的数据仓库架构，它为数据仓库管理提供了许多功能：数据ETL，数据存储管理，大数据集的查询和分析能力。由于hadoop是批处理系统，任务是高延迟阅读全文

posted @ 2018-06-07 14:06 打杂滴阅读(362) 评论(0) 推荐(0) 编辑 |

Sqoop增量导入

摘要：Specifies the column to be examined when determining which rows to import. (the column should not be of type CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/ 阅读全文

posted @ 2018-06-06 16:32 打杂滴阅读(534) 评论(0) 推荐(0) 编辑 |

sqoop1 使用测试

摘要：hive导入数据到mysql最简单的方式就是从hdfs直接读取hive表文件导入mysql，当然这需要知道数据表保存的目录如果能直接从表到表的导入，无需路径，当然是最好了 1.需要下载合适的hive-hcatalog-core-*.jar，分别复制到hive以及sqoop对应的lib目录下，并且配阅读全文

posted @ 2018-06-06 10:06 打杂滴阅读(577) 评论(0) 推荐(0) 编辑 |

努力，奋斗

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

06 2018 档案