博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

Spark快速入门(一)

Posted on 2018-02-01 15:25  哈哈丶大傻瓜  阅读(308)  评论(0编辑  收藏  举报

spark快速入门

一个简单的例子:

代码:

from pyspark.sql import SparkSession
logFile = "G:\\spark\\Spark\\spark-2.2.0-bin-hadoop2.7\\README.md"
spark=SparkSession.builder.appName('hello').master('local[2]').getOrCreate()
#(1)appName 为名称 (2)master  local[2]为本地调用2个线程
logData = spark.read.text(logFile).cache()
numAs = logData.filter(logData.value.contains('a')).count()
print(numAs)
# 61
numBs = logData.filter(logData.value.contains('b')).count()
print(numBs)


截图:  

可以进入SparkUI 地址:默认为 localhost:4040