Spark快速入门（一）

Posted on 2018-02-01 15:25 哈哈丶大傻瓜阅读(309) 评论(0) 编辑收藏举报

一个简单的例子：

代码：

from pyspark.sql import SparkSession
logFile = "G:\\spark\\Spark\\spark-2.2.0-bin-hadoop2.7\\README.md"
spark=SparkSession.builder.appName('hello').master('local[2]').getOrCreate()
#（1）appName 为名称 （2）master  local[2]为本地调用2个线程
logData = spark.read.text(logFile).cache()
numAs = logData.filter(logData.value.contains('a')).count()
print(numAs)
# 61
numBs = logData.filter(logData.value.contains('b')).count()
print(numBs)


截图：

可以进入SparkUI 地址：默认为 localhost:4040

刷新页面返回顶部

哈哈丶Stupid

公告

Spark快速入门（一）