摘要: 建赟 版主 楼主 建赟 版主 楼主 建赟 版主 楼主 前言 今天介绍一些MySQL常用的实用命令,都是一些比较简单的命令。已经知道的朋友,就当是巩固吧,不知道的童鞋,可以好好在自己的机器上,练习下。 0. 显示数据库 命令:show databases。 作用:列出当前数据库服务器中所有的数据库。 阅读全文
posted @ 2018-01-02 16:38 jinggangshan 阅读(231) 评论(0) 推荐(0) 编辑
摘要: MongoDB上海的活动已经结束快1个月了,我们再来回顾一下TJ在大会上进行的精彩分享吧~ MongoDB + Spark: 完整的大数据计算解决方案。 Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。 通用性:我们可以使用Spark SQL来执行常规分析, 阅读全文
posted @ 2018-01-02 16:16 jinggangshan 阅读(833) 评论(0) 推荐(0) 编辑
摘要: 在我看来,Spark编程中的action算子的作用就像一个触发器,用来触发之前的transformation算子。transformation操作具有懒加载的特性,你定义完操作之后并不会立即加载,只有当某个action的算子执行之后,前面所有的transformation算子才会全部执行。常用的ac 阅读全文
posted @ 2017-12-27 15:12 jinggangshan 阅读(2960) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Input DStreams 和 Receivers(接收器) DStreams 上的 Transform 阅读全文
posted @ 2017-12-26 14:31 jinggangshan 阅读(1445) 评论(0) 推荐(1) 编辑
摘要: Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Ru 阅读全文
posted @ 2017-12-26 14:22 jinggangshan 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: 最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果。由于之前对spark的API使用过,知道API中的sortByKey()可以自定义排序规则,通过实现自定义的排序规则来实现二次排序。 这里为了说明问题,举了一个简单的例子,key是 阅读全文
posted @ 2017-12-26 14:08 jinggangshan 阅读(2963) 评论(0) 推荐(0) 编辑
摘要: broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broadcast]] object for reading it in distrib 阅读全文
posted @ 2017-12-26 11:28 jinggangshan 阅读(3220) 评论(0) 推荐(0) 编辑
摘要: 1、RDD RDD(Resilient Distributed Dataset弹性分布式数据集)是Spark中抽象的数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据时分区存储的,这样不同分区的数据就可以分布在不同 阅读全文
posted @ 2017-12-26 11:00 jinggangshan 阅读(2903) 评论(0) 推荐(0) 编辑
摘要: Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖掘 2.3 RDD 模型的 阅读全文
posted @ 2017-12-26 10:44 jinggangshan 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 原文引自:http://blog.csdn.net/fengzhimohan/article/details/78471952 项目应用需要利用Spark读取mysql数据进行数据分析,然后将分析结果保存到mysql中。 开发环境: java:1.8 IDEA spark:1.6.2 一.读取mys 阅读全文
posted @ 2017-12-25 15:39 jinggangshan 阅读(21605) 评论(2) 推荐(0) 编辑