jinggangshan - 博客园

2018年1月2日

摘要：建赟版主楼主建赟版主楼主建赟版主楼主前言今天介绍一些MySQL常用的实用命令，都是一些比较简单的命令。已经知道的朋友，就当是巩固吧，不知道的童鞋，可以好好在自己的机器上，练习下。 0. 显示数据库命令：show databases。作用：列出当前数据库服务器中所有的数据库。阅读全文

posted @ 2018-01-02 16:38 jinggangshan 阅读(231) 评论(0) 推荐(0) 编辑

MongoDB + Spark结合使用方案

摘要： MongoDB上海的活动已经结束快1个月了，我们再来回顾一下TJ在大会上进行的精彩分享吧~ MongoDB + Spark：完整的大数据计算解决方案。 Spark介绍按照官方的定义，Spark 是一个通用，快速，适用于大规模数据的处理引擎。通用性：我们可以使用Spark SQL来执行常规分析，阅读全文

posted @ 2018-01-02 16:16 jinggangshan 阅读(833) 评论(0) 推荐(0) 编辑

2017年12月27日

Spark中的各种action算子操作（java版）

摘要：在我看来，Spark编程中的action算子的作用就像一个触发器，用来触发之前的transformation算子。transformation操作具有懒加载的特性，你定义完操作之后并不会立即加载，只有当某个action的算子执行之后，前面所有的transformation算子才会全部执行。常用的ac 阅读全文

posted @ 2017-12-27 15:12 jinggangshan 阅读(2960) 评论(0) 推荐(0) 编辑

2017年12月26日

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南

摘要： Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)（离散化流） Input DStreams 和 Receivers（接收器） DStreams 上的 Transform 阅读全文

posted @ 2017-12-26 14:31 jinggangshan 阅读(1445) 评论(0) 推荐(1) 编辑

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets

摘要： Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Ru 阅读全文

posted @ 2017-12-26 14:22 jinggangshan 阅读(1117) 评论(0) 推荐(0) 编辑

spark函数sortByKey实现二次排序

摘要：最近在项目中遇到二次排序的需求，和平常开发spark的application一样，开始查看API，编码，调试，验证结果。由于之前对spark的API使用过，知道API中的sortByKey()可以自定义排序规则，通过实现自定义的排序规则来实现二次排序。这里为了说明问题，举了一个简单的例子,key是阅读全文

posted @ 2017-12-26 14:08 jinggangshan 阅读(2963) 评论(0) 推荐(0) 编辑

spark 变量使用 broadcast、accumulator

摘要： broadcast 官方文档描述： Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broadcast]] object for reading it in distrib 阅读全文

posted @ 2017-12-26 11:28 jinggangshan 阅读(3220) 评论(0) 推荐(0) 编辑

Spark RDD API（scala）

摘要： 1、RDD RDD（Resilient Distributed Dataset弹性分布式数据集）是Spark中抽象的数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据时分区存储的，这样不同分区的数据就可以分布在不同阅读全文

posted @ 2017-12-26 11:00 jinggangshan 阅读(2903) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）

摘要： Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: Resilient Distributed Datasets（RDDs） 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖掘 2.3 RDD 模型的阅读全文

posted @ 2017-12-26 10:44 jinggangshan 阅读(715) 评论(0) 推荐(0) 编辑

2017年12月25日

Spark使用Java读取mysql数据和保存数据到mysql

摘要：原文引自：http://blog.csdn.net/fengzhimohan/article/details/78471952 项目应用需要利用Spark读取mysql数据进行数据分析，然后将分析结果保存到mysql中。开发环境： java：1.8 IDEA spark：1.6.2 一.读取mys 阅读全文

posted @ 2017-12-25 15:39 jinggangshan 阅读(21605) 评论(2) 推荐(0) 编辑

wenwen2016

公告