随笔分类 -  spark

spark SQL
摘要:参考文献:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/index.html 大数据工程师们开始探索如何使用类 SQL 的方式来操作和分析大数据,通过大量的努力,目前业界已经出现很多 SQL on Had 阅读全文

posted @ 2018-08-11 16:50 我和你并没有不同 阅读(170) 评论(0) 推荐(0) 编辑

网易云课堂-spark
摘要:Flink比spark优秀,但既生瑜何生亮,所以Flink没火起来 为了使用sortbykey,需要RDD的元素是key-value的形式 重看: 课时38 :spark运行基本流程 spark只能处理秒级的流,不能处理毫秒级的,毫秒级的需要storm 阅读全文

posted @ 2018-07-29 17:41 我和你并没有不同 阅读(284) 评论(0) 推荐(0) 编辑

pip离线安装python包 && 修改 pip 源
摘要:压缩包安装: 一般要先从PyPi官网下载好zip或者tar.gz安装包,然后通过WindowsSCP或者其他SSH软件传到我们的服务器,再通过pip装,下方是示意图,应该不少人还不知道这种安装方式 1 首先在一台能上网的机器上得到python包 1) 新建一个空目录,如 /home/ubuntu/z 阅读全文

posted @ 2018-07-10 20:18 我和你并没有不同 阅读(522) 评论(0) 推荐(0) 编辑

spark 实战
该文被密码保护。

posted @ 2018-07-10 09:08 我和你并没有不同 阅读(13) 评论(0) 推荐(0) 编辑

sparking water
摘要:1 2 It provides a way to initialize H2O services on each node in the Spark cluster and to access data stored in data structures of Spark and H2O. 3 In 阅读全文

posted @ 2018-07-06 14:09 我和你并没有不同 阅读(866) 评论(0) 推荐(0) 编辑

spark学习笔记3
摘要:Spark 支持在集群范围内将数据集缓存至每一个节点的内存中,可避免数据传输,当数据需要重复访问时这个特征非常有用,例如查询体积小的“热”数据集,或是运行如 PageRank 的迭代算法。调用 cache(),就可以将数据集进行缓存: Spark SQL和 DataFrame可以用于处理结构化数据。 阅读全文

posted @ 2018-07-02 12:26 我和你并没有不同 阅读(149) 评论(0) 推荐(0) 编辑

spark学习笔记2
摘要:SparkContext代表和一个集群的连接 在shell中SparkContext是自动创建好的,就是sc 阅读全文

posted @ 2018-06-30 17:50 我和你并没有不同 阅读(85) 评论(0) 推荐(0) 编辑

spark Pair RDD 基础操作
摘要:下面是Pair RDD的API讲解 下面有两段示例代码,注意下面示例代码中返回值的数据类型 阅读全文

posted @ 2018-05-20 17:50 我和你并没有不同 阅读(238) 评论(0) 推荐(0) 编辑

spark 基本操作
摘要:结果如下: 阅读全文

posted @ 2018-05-20 17:10 我和你并没有不同 阅读(396) 评论(0) 推荐(0) 编辑

spark学习笔记
摘要:Spark通过减少磁盘IO来达到性能的提升 为了适应迭代计算,Spark将经常被重用的数据缓存到内存中以提升数据读取速度,当内存容量有限的时候则将数据存入磁盘中或根据最近最少使用页面置换算法(Least Recently Used,LRU)算法将内存中使用频率较低的文件空间收回,从而让新的数据进来 阅读全文

posted @ 2018-05-13 22:43 我和你并没有不同 阅读(118) 评论(0) 推荐(0) 编辑