随笔档案「2018年11月」 - stone1234567890

spark浅谈(3):

摘要：一、shuffle操作 1.spark中特定的操作会触发我们都知道的shuffle事件，shuffle是spark进行数据重新分布的机制，这通常涉及跨执行程序和机器来赋值数据，使得混洗称为复杂而且昂贵的操作。 2.为了理解shuffle过程中所发生的事情，我们先来关注reduceByKey操作的例子阅读全文

posted @ 2018-11-18 14:25 stone1234567890 阅读(205) 评论(0) 推荐(0)

linux学习笔记(1):

摘要：一、Linux系统简介 1.什么是linux Linux是一个免费的、多用户、多任务的操作系统，其运行方式、功能和UNIX系统很相似，但Linux系统的稳定性、安全性与网络功能是许多商业操作系统所无法比拟的。Linux系统最大的特色是源代码完全公开，在符合GNU/GPL（通用公共许可证）的原则下，任阅读全文

posted @ 2018-11-15 21:12 stone1234567890 阅读(164) 评论(0) 推荐(0)

数据分析之pandas(1)

摘要：一、Pandas的数据结构 1.Series (1)类似于一维数组 (2)通过list构建Series ser_obj=pd.Series(range(10)) (3)pandas数据结构案例阅读全文

posted @ 2018-11-13 07:45 stone1234567890 阅读(158) 评论(0) 推荐(0)

数据分析之期权

摘要：一、白话期权本文来自知乎，对于一个NJU软工学生来说，先来补补脑：https://zhuanlan.zhihu.com/optionmarketmaking 随着2015年上证50ETF 期权的开放，豆粕和白糖期权的即将开市，最近几年期权在国内逐渐火了起来。虽然关注了一些国内相关的期权平台，公众账阅读全文

posted @ 2018-11-09 23:16 stone1234567890 阅读(776) 评论(0) 推荐(0)

数据分析之蒙特卡洛模拟

摘要：一、简单表述通过大量重复产生大量随机数模拟可能的实现环境帮助我们解决不确定场景下的决策问题的方法二、圆周率pi的计算代码：三、蒙特卡洛模拟在期权定价或者风险管理问题上有很强的能力，容易处理高维问题缺点：高计算要求，因此必须高效的实现该算法实现策略：(1)从基础到向量化两种方法 (2)纯阅读全文

posted @ 2018-11-09 23:11 stone1234567890 阅读(4006) 评论(0) 推荐(0)

spark浅谈(2)：SPARK核心编程

摘要：一、SPARK-CORE 1.spark核心模块是整个项目的基础。提供了分布式的任务分发，调度以及基本的IO功能，Spark使用基础的数据结构，叫做RDD(弹性分布式数据集),是一个逻辑的数据分区的集合，可以跨机器。RDD可以通过两种方式进行创建，一种是从外部的数据集引用数据，第二种方式是通过在现有阅读全文

posted @ 2018-11-09 18:36 stone1234567890 阅读(231) 评论(0) 推荐(0)

spark浅谈(1):RDD

摘要：一、弹性分布式数据集 1.弹性分布式数据集(RDD)是spark数据结构的基础。它是一个不可变的分布式对象的集合，RDD中的每个数据集都被划分为一个个逻辑分区，每个分区可以在集群上的不同节点上进行计算。RDDs可以包含任何类型的Python，Java或者Scala对象，包括用户自定义的类。 2.正常阅读全文

posted @ 2018-11-09 14:36 stone1234567890 阅读(314) 评论(0) 推荐(0)

shell脚本

摘要：每日一博：今天总结一下shell脚本吧 Shell程序就是放在一个文件中的一系列 Linux命令和实用程序，在执行的时候，通过 Linux系统一个接着一个地解释和执行每个命令，这和Windows系统下的批处理程序非常相似。一、理论知识 1.开头：Shell程序必须以#!/bin/bash来作为阅读全文

posted @ 2018-11-08 23:16 stone1234567890 阅读(238) 评论(0) 推荐(0)

数据分析学习笔记(1):工作环境以及建模理论基础

摘要：零、Python语言基础复习一、环境部署 1.python包管理： (1)安装：pip install xxx,conda install xxx (2)卸载：pip uninstall xxx, conda uninstall xxx (3)升级：pip install -upgrade xxx 阅读全文

posted @ 2018-11-07 07:56 stone1234567890 阅读(433) 评论(0) 推荐(0)

spark复习笔记(7):sparkstreaming

摘要：一、介绍 1.sparkStreaming是核心模块Spark API的扩展，具有可伸缩，高吞吐量以及容错的实时数据流处理等。数据可以从许多来源（如Kafka，Flume，Kinesis或TCP套接字）中获取。并且可以使用以高级函数表示的复杂算法进行处理map，例如reduce，join和windo 阅读全文

posted @ 2018-11-06 18:01 stone1234567890 阅读(269) 评论(0) 推荐(0)

mybatis复习笔记(1):

摘要：一、简介：什么是MyBatis 1.MyBatis是一款优秀的持久层框架，支持定制化SQL、存储过程以及高级映射。MyBatis避免了几乎所有的JDBC代码和手动设置参数以及获取结果集。MyBatis可以使用简单的XML或者注解来配置和映射原生信息，将接口和Java的POJOs映射成数据库中的记录阅读全文

posted @ 2018-11-05 21:28 stone1234567890 阅读(237) 评论(0) 推荐(0)

spark复习笔记(7):sparkSQL

摘要：一、saprkSQL模块，使用类sql的方式访问Hadoop，实现mr计算，底层使用的是rdd 1.hive //hadoop mr sql 2.phenoix //hbase上构建sql的交互过程该模块能在spark上运行sql语句 3.DataFrame //数据框，表在spark中的数据框阅读全文

posted @ 2018-11-05 18:27 stone1234567890 阅读(401) 评论(0) 推荐(0)

spark复习笔记(6):RDD持久化

摘要：在spark中最重要的功能之一是跨操作在内存中持久化数据集。当你持久化一个RDD的时候，每个节点都存放了一个它在内存中计算的一个分区，并在该数据集的其他操作中进行重用，持久化一个RDD的时候，节点上的每个分区都会保存到内存中，这使得将来的action更加的快。缓存技术是迭代算法和交互式查询的重要工阅读全文

posted @ 2018-11-03 21:13 stone1234567890 阅读(336) 评论(0) 推荐(0)

spark复习笔记(6):数据倾斜

摘要：一、数据倾斜 spark数据倾斜，map阶段对key进行重新划分。大量的数据在经过hash计算之后，进入到相同的分区中，zao 阅读全文

posted @ 2018-11-02 22:21 stone1234567890 阅读(152) 评论(0) 推荐(0)

spark复习笔记(4):RDD变换

摘要：一、RDD变换 1.返回执行新的rdd的指针，在rdd之间创建依赖关系。每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的，因此除非调用某个转换或动作，否则不会执行任何操作，否则将触发工作创建和执行。 2.map()是对每个元素进行变换，应用变换函数，返回的是一个新的分布式数据集，m 阅读全文

posted @ 2018-11-01 22:41 stone1234567890 阅读(428) 评论(0) 推荐(0)

spark复习笔记(5):API分析

摘要：0.spark是基于hadoop的mr模型，扩展了MR，高效实用MR模型，内存型集群计算，提高了app处理速度。 1.特点：(1)在内存中存储中间结果 (2)支持多种语言：java scala python (3)内置了80多种算子 2.sparkCore模块(通用执行引擎) (1)通用的执行引擎，阅读全文

posted @ 2018-11-01 19:25 stone1234567890 阅读(262) 评论(0) 推荐(0)

spark复习笔记(4):spark脚本分析

摘要：1.[start-all.sh] 2.[start-master.sh] 阅读全文

posted @ 2018-11-01 14:48 stone1234567890 阅读(177) 评论(0) 推荐(0)

maven 打包Scala代码到jar包

摘要：idea的pom.xml文件配置阅读全文

posted @ 2018-11-01 13:35 stone1234567890 阅读(6510) 评论(0) 推荐(0)

spark复习笔记(3)

摘要：在windows上实现wordcount单词统计一、编写scala程序，引入spark类库，完成wordcount 1.sparkcontextAPI sparkcontext是spark功能的主要入口点，代表着到spark集群的连接，可用于在这些集群上创建RDD(弹性分布式数据集)，累加器和广播阅读全文

posted @ 2018-11-01 10:38 stone1234567890 阅读(267) 评论(0) 推荐(0)

大数据开发程序猿

做有态度的码农，欢迎各位朋友光临，本博客长期更新，需要学习讨论找工作面试的同学可以加qq群：694117549，交个朋友相互交流。

11 2018 档案

公告