---江北

2018年4月16日

大数据入门第二十四天——SparkStreaming（二）与flume、kafka整合

摘要：前一篇中数据源采用的是从一个socket中拿数据，有点属于“旁门左道”，正经的是从kafka等消息队列中拿数据！主要支持的source，由官网得知如下：获取数据的形式包括推送push和拉取pull 一、spark streaming整合flume 1.push的方式更推荐的是pull的拉取方式阅读全文

posted @ 2018-04-16 16:43 ---江北阅读(633) 评论(0) 推荐(0) 编辑

2018年4月15日

大数据入门第二十四天——SparkStreaming（一）入门与示例

摘要：一、概述 1.什么是spark streaming Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processi 阅读全文

posted @ 2018-04-15 17:54 ---江北阅读(421) 评论(0) 推荐(0) 编辑

2018年4月8日

大数据入门第二十三天——SparkSQL（二）结合hive

摘要：一、SparkSQL结合hive 1.首先通过官网查看与hive匹配的版本这里可以看到是1.2.1 2.与hive结合 spark可以通过读取hive的元数据来兼容hive，读取hive的表数据，然后在spark引擎中进行sql统计分析，从而，通过sparksql与hive结合实现数据分析将成为一阅读全文

posted @ 2018-04-08 17:54 ---江北阅读(836) 评论(0) 推荐(0) 编辑

大数据入门第二十三天——SparkSQL（一）入门与使用

摘要：一、概述 1.什么是sparkSQL 根据官网的解释： Spark SQL is a Spark module for structured data processing. 也就是说，sparkSQL是一个处理结构化数据的组件更多的介绍，可以参见官网或者w3c：https://www.w3csc 阅读全文

posted @ 2018-04-08 17:02 ---江北阅读(785) 评论(0) 推荐(1) 编辑

2018年4月4日

kettle学习笔记（一）——入门与安装

摘要：一、概述 1.kettle是什么 Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。更多介绍，参考kettle中文网阅读全文

posted @ 2018-04-04 16:12 ---江北阅读(2093) 评论(1) 推荐(0) 编辑

大数据入门第二十二天——spark（二）RDD算子（2）与spark其它特性

摘要：一、JdbcRDD与关系型数据库交互虽然略显鸡肋，但这里还是记录一下（点开JdbcRDD可以看到限制比较死，基本是鸡肋。但好在我们可以通过自定义的JdbcRDD来帮助我们完成与关系型数据库的交互。这点和Hadoop需要借助sqoop等工具进行是有优势的！）给出一个demo的参考链接：https: 阅读全文

posted @ 2018-04-04 11:24 ---江北阅读(322) 评论(2) 推荐(0) 编辑

2018年4月3日

大数据入门第二十二天——spark（三）自定义分区、排序与查找

摘要：一、自定义分区 1.概述默认的是Hash的分区策略，这点和Hadoop是类似的，具体的分区介绍，参见：https://blog.csdn.net/high2011/article/details/68491115 2.实现 // 与Hadoop相通，不再赘述二、自定义排序基本上就是结合之前的隐阅读全文

posted @ 2018-04-03 15:33 ---江北阅读(1057) 评论(0) 推荐(0) 编辑

2018年4月1日

大数据入门第二十二天——spark（二）RDD算子（1）

摘要：一、RDD概述 1.什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时阅读全文

posted @ 2018-04-01 16:24 ---江北阅读(984) 评论(0) 推荐(0) 编辑

2018年3月31日

大数据入门第二十二天——spark（一）入门与安装

摘要：一、概述 1.什么是spark 从官网http://spark.apache.org/可以得知： Apache Spark™ is a fast and general engine for large-scale data processing. 主要的特性有： Speed：快如闪电（HADOOP 阅读全文

posted @ 2018-03-31 21:05 ---江北阅读(489) 评论(0) 推荐(0) 编辑

2018年3月27日

大数据入门第二十一天——scala入门（二）并发编程Akka

摘要：一、概述 1.什么是akka Akka基于Actor模型，提供了一个用于构建可扩展的（Scalable）、弹性的（Resilient）、快速响应的（Responsive）应用程序的平台。更多入门的基础与介绍，参考：https://www.iteblog.com/archives/1154.html 阅读全文

posted @ 2018-03-27 16:19 ---江北阅读(709) 评论(0) 推荐(0) 编辑

冰冻三尺，非一日之寒

公告