摘要: 程序就开始运行,就可以看到类似下面的结果: 阅读全文
posted @ 2018-08-09 16:36 Bean_zheng 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 在nc第一个终端窗口窗口中随意输入一些单词,监听窗口就会自动获得单词数据流信息,在监听窗口每隔1秒就会打印出词频统计信息,大概会再屏幕上出现类似如下的结果: 阅读全文
posted @ 2018-08-09 16:34 Bean_zheng 阅读(226) 评论(0) 推荐(0) 编辑
摘要: #导入库 from operator import add from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext #配置创建StreamingContext对象 conf 阅读全文
posted @ 2018-08-09 16:27 Bean_zheng 阅读(692) 评论(0) 推荐(0) 编辑
摘要: ##按照hadoop的思想胡乱搞了一下,但是结果不对。。。。 ##需要再思考 from pyspark import SparkContext sc = SparkContext('local','STJoin') rdd = sc.textFile("file:///usr/local/spark 阅读全文
posted @ 2018-08-04 10:48 Bean_zheng 阅读(193) 评论(0) 推荐(0) 编辑
摘要: #原理很简单:先是通过flatMap函数,把rdd进行扁平化操作,再用map函数得到(k,1)的样式,然后再用groupByKey函数,合并value值,就相当于对key进行去重操作,再用keys()函数,取出key 实验数据:delcp.txt hello hello world world h 阅读全文
posted @ 2018-08-03 09:53 Bean_zheng 阅读(6087) 评论(1) 推荐(0) 编辑
摘要: ##由于才开始学,此做法为只为结果,不为过程型 实验数据: math.txt: English.txt: Ben 98 Ben 89 Bean 99 Bean 98 Harry 89 Harry 78 Sam 79 Sam 87 Tom 80 Tom 80 from pyspark import S 阅读全文
posted @ 2018-08-02 15:03 Bean_zheng 阅读(657) 评论(0) 推荐(0) 编辑
摘要: #直接调用sortByKey()函数就可以做到 from pyspark import SparkContext sc = SparkContext('local','Sort') list = ["7","4","8","2","5"] textFile = sc.parallelize(list 阅读全文
posted @ 2018-08-01 12:15 Bean_zheng 阅读(536) 评论(0) 推荐(0) 编辑
摘要: #基于python的spark #导入pyspark库 from pyspark import SparkContext #配置SparkContext sc = SparkContext('local','wordcount') #创建一个新的RDD,加载本地文件 textFile = sc.te 阅读全文
posted @ 2018-08-01 11:01 Bean_zheng 阅读(592) 评论(0) 推荐(0) 编辑
摘要: <?xml version="1.0" encoding="utf-8"?> <beans --整个配置文件的根节点,包含一个或多个bean元素 xmlns= --最基本的命名空间定义 xmlns:xsi= --最基本的命名空间定义 xmlns:context= --启动自动扫描或注解装配时的,命名 阅读全文
posted @ 2018-02-28 17:29 Bean_zheng 阅读(180) 评论(0) 推荐(0) 编辑
摘要: No result defined for action struts.user.action.loginUser and result successat com.opensymphony.xwork2.DefaultActionInvocation.executeResult(DefaultAc 阅读全文
posted @ 2018-02-13 17:02 Bean_zheng 阅读(244) 评论(0) 推荐(0) 编辑