摘要:
wordcount是spark入门级的demo,不难但是很有趣。接下来我用命令行、scala、Java和python这三种语言来实现单词统计。 一、使用命令行实现单词的统计 1.首先touch一个a.txt文本文件 2.加载文本:产生弹性分布式数据集,用sc.textFile()加载文本文件到内存中 阅读全文
摘要:
第二章 控制结构和函数 1.条件表达式 (1)scala中if/else表达式有值,这个值就是跟在if或者else之后的表达式的值。如: if (x > 0) 1 else -1 这个表达式的值是1或者-1,具体是哪个值取决于x的值。 可以将这个if/else表达式的值赋给变量: val s = i 阅读全文
摘要:
第一章 基础 1.安装scala解释器 (1)scala-2.12.1.msi (2)配置环境变量:SCALA_HOME = D:\Program Files\scala Path= %SCALA_HOME%\bin;%SCALA_HOME%\jre\bin; ClassPath =.;%SCALA 阅读全文
摘要:
之前工作的时候经常用,隔了段时间,现在学校要用学的东西也忘了,翻翻书谢谢博客吧。 1.什么是spark? Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目 阅读全文
摘要:
一、文件读写的3中方法 1.直接读入 读取文件的3种方法: read()将文本文件的所有行读取到一个字符串中去。 readline()是一行一行的读取 readlines()是将文本文件的所有行读取到一个list中去,文本文件的每一行都是一个list的一个元素。优点:readline()可以在读取的 阅读全文
摘要:
一、环境搭建 1.python 2.7 2.pip ,并设置pip源 (1)配置pip conf ,自动设置源 #mkdir ~/.pip #vim ~/.pip/pip.conf [gloabal] index-url=https://pypi.tuna.tsinghua.edu.cn/simpl 阅读全文
摘要:
一、类和实例 1.类(Class):用来具有相同属性和方法的对象的集合。它定义了该集合汇总的每个对象共有的属性和方法,对象是类的实例。 2.类变量:类变量在整个实例化的对象中是公用的。类变量定义在类中,且定义在函数体外。类变量通常不作为实例变量使用。 3.实例变量:定义在方法中的变量,只作用于当前实 阅读全文
摘要:
一、容器 1.list列表 序列是python中最基本的数据结构,序列中的每个元素都分配一个数字,它的位置或索引,第一个索引是0,第二个索引是1,以此类推 类表的数据项不需要具有相同的数据类型 list创建 添加元素(list only):append,extends 删除元素(list only) 阅读全文
摘要:
一、变量和类型 1.基本变量类型 (1)整数 (2)浮点数 (3)字符串 (4)布尔值 (5)空值 (6)函数 (7)模块 (8)类型 (9)自定义类型 <class 'int'> <class 'float'> <class 'float'> <class 'str'> <class 'bool' 阅读全文
摘要:
第七章 模式匹配和正则表达式 1.不用正则表达式来查找文本模式 2.用正则表达式查找文本模式 (1)正则表达式,简称为regex,是文本模式的描述方法。如\d是一个正则表达式,表示的是一位数字的字符,即任何0-9之间的数字。python使用正则表达式\d\d\d-\d\d\d-\d\d\d\d,来匹 阅读全文