08 2016 档案

摘要:函数:可以返回多个值,其实函数是返回一个对象,就是元组,元组中的元素被拆分到各个结果变量中了匿名函数:lambda函数,仅仅由单条语句组成,结果就是返回值这种函数没有提供名称属性闭包:closure就是其他函数动态生成并返回的函数被返回的函数可以访问其创建者的局部命名空间def make_closure(a): def closure(): print("I know the ... 阅读全文
posted @ 2016-08-25 07:24 kongchung 阅读(285) 评论(0) 推荐(0) 编辑
摘要:下面的记录根据:麦金尼. 利用Python进行数据分析[M]. 机械工业出版社, 2014.这本教材的附录部分总结而来 Python的设计特点是重视可读性,简洁性以及明确性Python不推荐多个语句写在一行,不够简洁Python中真正是万物皆对象,数值,字符串,数据结构,函数,类,模块等都是Python对象a = [1,2,3]其实是创建右侧对象的一个应用b = a其实不是数据的复制,而是引用的复... 阅读全文
posted @ 2016-08-25 00:05 kongchung 阅读(574) 评论(0) 推荐(0) 编辑
摘要:http://www.math.pku.edu.cn/teachers/qiuzy/ds_python/courseware/这本书的第二章写的是抽象数据类型和Python类以前从没想过认真的去写Python但是既然用Python去学Spark了现在就要认真对待Python进行数据处理的基础了整体上看除了更随意的感觉之外和java或者cpp的感觉差不多类可以定义在程序的任何地方,一般都是写在最外层... 阅读全文
posted @ 2016-08-24 17:03 kongchung 阅读(739) 评论(0) 推荐(0) 编辑
摘要:Accumulators and Broadcast Variables这些不能从checkpoint重新恢复如果想启动检查点的时候使用这两个变量,就需要创建这写变量的懒惰的singleton实例。下面是一个例子:def getWordBlacklist(sparkContext): if ('wordBlacklist' not in globals()): globals(... 阅读全文
posted @ 2016-08-17 11:04 kongchung 阅读(1355) 评论(0) 推荐(0) 编辑
摘要:官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSpark Streaming是spark api的扩展能实现可扩展,高吞吐,可容错,的流式处理从外接数据源接受数据流,处理数据流使用的是复杂的高度抽象的算法函数map reduce join window等输出的数据可以存储到文件系统和数据库甚至是... 阅读全文
posted @ 2016-08-17 10:03 kongchung 阅读(2385) 评论(0) 推荐(0) 编辑
摘要:地址: http://spark.apache.org/docs/2.0.0/ml-pipeline.html Spark PipeLine<!--more--> 是基于DataFrames的高层的API,可以方便用户构建和调试机器学习流水线 可以使得多个机器学习算法顺序执行,达到高效的数据处理的目 阅读全文
posted @ 2016-08-16 16:01 kongchung 阅读(12335) 评论(0) 推荐(0) 编辑
摘要:今天更新了电脑上的spark环境,因为上次运行新的流水线的时候,有的一些包在1.6.1中并不支持只需要更改系统中用户的环境变量即可然后在eclipse中新建pydev工程,执行环境是python3这里面关联的三个旧的库也换掉,最后eclipse环境变量换掉 随后开始看新的文档地址:http://spark.apache.org/docs/latest/ml-clustering.html这次是聚... 阅读全文
posted @ 2016-08-16 15:02 kongchung 阅读(6295) 评论(0) 推荐(0) 编辑