牛仔裤的夏天

《Spark Python API 官方文档中文版》之 pyspark.sql (一)

2017-11-04 20:59 by 牛仔裤的夏天, 31073 阅读, 1 推荐, 收藏,

摘要：摘要：在Spark开发中，由于需要用Python实现，发现API与Scala的略有不同，而Python API的中文资料相对很少。每次去查英文版API的说明相对比较慢，还是中文版比较容易get到所需，所以利用闲暇之余将官方文档翻译为中文版，并亲测Demo的代码。在此记录一下，希望对那些对Spark感阅读全文

2 Comment

Python2.6.6升级2.7.3

2017-10-22 16:12 by 牛仔裤的夏天, 454 阅读, 0 推荐, 收藏,

摘要：Python2.7替换2.6： 1.下载Python-2.7.3 #wget http://python.org/ftp/python/2.7.3/Python-2.7.3.tar.bz2 2.解压 #tar -jxvf Python-2.7.3.tar.bz2 3.更改工作目录 #cd Pytho 阅读全文

0 Comment

Pandas基础学习与Spark Python初探

2017-09-02 18:02 by 牛仔裤的夏天, 6186 阅读, 1 推荐, 收藏,

摘要：摘要：pandas是一个强大的Python数据分析工具包，pandas的两个主要数据结构Series（一维）和DataFrame（二维）处理了金融，统计，社会中的绝大多数典型用例科学，以及许多工程领域。在Spark中，python程序可以方便修改，省去java和scala等的打包环节，如果需要导出文阅读全文

0 Comment

RDDs基本操作、RDDs特性、KeyValue对RDDs、RDD依赖

2017-07-28 20:21 by 牛仔裤的夏天, 2905 阅读, 0 推荐, 收藏,

摘要：摘要：RDD是Spark中极为重要的数据抽象，这里总结RDD的概念，基本操作Transformation(转换)与Action，RDDs的特性，KeyValue对RDDs的Transformation(转换)。 1.RDDs是什么 Resilient distributed datasets(弹性分阅读全文

0 Comment

Spark认识&环境搭建&运行第一个Spark程序

2017-07-09 17:17 by 牛仔裤的夏天, 34542 阅读, 3 推荐, 收藏,

摘要：摘要：Spark作为新一代大数据计算引擎，因为内存计算的特性，具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、Spark开发环境搭建及编写第一个scala程序、运行第一个Spark程序。 1.Spark是什么 Spark是一个快速且通用的集群计算平台 2.Spa 阅读全文

2 Comment

Shell脚本学习指南 [ 第三、四章 ] 查找与替换、文本处理工具

2017-03-17 22:27 by 牛仔裤的夏天, 750 阅读, 0 推荐, 收藏,

摘要：摘要：第三章讨论的是编写Shell脚本时经常用到的两个基本操作。第四章总共介绍了约30种处理文本文件的好用工具。第三章查找与替换概括：本章讨论的是编写Shell脚本时经常用到的两个基本操作：文本查找、文本替换。 3.1 查找文本如需从输入的数据文件中取出特定的文本行，主要的工具为grep程序阅读全文

0 Comment

排列组合之全排列

2017-03-04 15:41 by 牛仔裤的夏天, 884 阅读, 0 推荐, 收藏,

摘要：摘要：在群里看到一个朋友发了这样一条消息：有列举组合排列的算法吗？大家讨论一下？例如有一个数组['a','b','c']，需要打印出：abc,acb, bac, bca, cab, cba。随手写了两个for循环，结果发现在5个7个或者更大的时候，结果并不对，后根据出题者给出的树的思想实现了排列，后阅读全文

0 Comment

Shell脚本学习指南 [ 第一、二章 ] 背景知识、入门

2017-02-26 20:17 by 牛仔裤的夏天, 454 阅读, 0 推荐, 收藏,

摘要：摘要：第一章介绍unix系统的发展史及软件工具的设计原则。第二章介绍编译语言与脚本语言的区别以及两个相当简单但很实用的Shell脚本程序，涵盖范围包括了命令、选项、参数、Shell变量、echo与printf的输出、基本输入/输出重定向、命令查找、从脚本里访问参数以及执行跟踪等。第一章背景知识阅读全文

0 Comment

Scala基础知识[一]

2016-10-26 13:44 by 牛仔裤的夏天, 296 阅读, 0 推荐, 收藏,

摘要：摘要：在Scala 是 Scalable Language 的简写，是一门多范式(multi-paradigm)的编程语言。设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上，并兼容现有的Java程序。Scala 源代码被编译成Java字节码，所以它可以运行于JV 阅读全文

0 Comment

Hadoop JVM调整解决 MapReduce 作业超时问题

2016-10-18 18:30 by 牛仔裤的夏天, 1070 阅读, 0 推荐, 收藏,

摘要：摘要：由于业务需要，在mapreduce汇总时需要关联两个基础表，一个60M左右，不影响mr运行，另一个表，大小约为380M，行数为1700万行左右，在默认配置下，一旦加载这个数据就会在reduce阶段卡住最后报超时错误，经过jvm的调整，终于解决了mr汇总的问题，这里简单总结下，回头有时间再详细看阅读全文

0 Comment

牛仔裤的夏天虚怀若谷，大智若愚