文章分类 -  spark

python中使用pyspark 读取和整理日志数据并将数据写入到es中去
摘要:代码如下 另外一种log的处理 阅读全文

posted @ 2019-05-28 14:02 王大拿 阅读(3412) 评论(0) 推荐(0) 编辑

SparkSession - Spark SQL 的 入口
摘要:SparkSession - Spark SQL 的 入口 SparkSession - Spark SQL 的 入口 翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-sql-SparkSessi 阅读全文

posted @ 2019-05-22 17:08 王大拿 阅读(437) 评论(0) 推荐(0) 编辑

pysrapk 处理movielens
摘要:1、数据集下载 https://grouplens.org/datasets/movielens 参考地址 2、数据集下文件格式u.user用户属性文件 包含user.id用户ID gender性别 occupation职业 ZIP code邮编等属性,每个属性之间用|分割 u.item电影元数据 阅读全文

posted @ 2019-04-09 11:50 王大拿 阅读(352) 评论(0) 推荐(0) 编辑

pyspark学习系列(二)读取CSV文件 为RDD或者DataFrame进行数据处理
摘要:一、本地csv文件读取: 最简单的方法: 或者采用spark直接读为RDD 然后在转换 此时lines 为RDD。如果需要转换成dataframe: schema = StructType([StructField('HWMC',StringType(),True),StructField('cod 阅读全文

posted @ 2019-04-08 16:29 王大拿 阅读(5976) 评论(0) 推荐(0) 编辑

spark 使用Python编写
摘要:常见的方法 由于Scala才刚刚开始学习,还是对python更为熟悉,因此在这记录一下自己的学习过程,主要内容来自于spark的官方帮助文档,这一节的地址为: http://spark.apache.org/docs/latest/quick-start.html 文章主要是翻译了文档的内容,但也在 阅读全文

posted @ 2019-04-08 11:27 王大拿 阅读(1018) 评论(0) 推荐(0) 编辑

Spark:map与flatMap区别
摘要:本文介绍了Spark中map(func)和flatMap(func)这两个函数的区别及具体使用。 本文介绍了Spark中map(func)和flatMap(func)这两个函数的区别及具体使用。 本文介绍了Spark中map(func)和flatMap(func)这两个函数的区别及具体使用。 本文介 阅读全文

posted @ 2019-03-27 15:49 王大拿 阅读(763) 评论(0) 推荐(0) 编辑

Spark和spark Shell 初学
摘要:Spark学习 一、Spark简介 1.Hadoop中Map-Reduce计算框架的替代品 2.运行在HDFS上,可以与Yarn配合 3.将中间结果保存在内存而不是磁盘中 4.提供了比Map、Reduce更多的高阶函数 5.提供了Scala、Python、Java的API以及Scala和Python 阅读全文

posted @ 2019-03-27 15:45 王大拿 阅读(329) 评论(0) 推荐(0) 编辑

mac安装IPython notebook
摘要:本文记录下我的电脑下安装iPython-notebook 的过程。 简介: 我的系统是OSX EI-Capitan 10.11,python是2.7.10,ipython版本为4.0.0. 首先,我已经用了大半年时间的ipython了,它是一个交互式的shell,除了代码补全,代码高亮外,还有很多m 阅读全文

posted @ 2019-03-27 10:35 王大拿 阅读(527) 评论(0) 推荐(0) 编辑

在mac电脑上成功安装spark . ipython
摘要:一、简介 1.1内容 在mac电脑上成功安装spark(不用预先安装hadoop),并在jupyter上使用pyspark来操作spark。 1.2 知识点 jdk的安装 spark和pyspark的安装 虚拟环境的内核 1.3 环境 本文所有的环境变量是在.bash_profile 或 .zshr 阅读全文

posted @ 2019-03-26 16:18 王大拿 阅读(590) 评论(0) 推荐(0) 编辑

导航