stone1234567890 - 博客园

2018年10月25日

摘要： wordcount是spark入门级的demo，不难但是很有趣。接下来我用命令行、scala、Java和python这三种语言来实现单词统计。一、使用命令行实现单词的统计 1.首先touch一个a.txt文本文件 2.加载文本：产生弹性分布式数据集，用sc.textFile()加载文本文件到内存中阅读全文

posted @ 2018-10-25 10:43 stone1234567890 阅读(1850) 评论(0) 推荐(0)

2018年10月22日

《快学scala》读书笔记(2)

摘要：第二章控制结构和函数 1.条件表达式 (1)scala中if/else表达式有值，这个值就是跟在if或者else之后的表达式的值。如： if (x > 0) 1 else -1 这个表达式的值是1或者-1，具体是哪个值取决于x的值。可以将这个if/else表达式的值赋给变量: val s = i 阅读全文

posted @ 2018-10-22 08:23 stone1234567890 阅读(141) 评论(0) 推荐(0)

2018年10月21日

《快学scala》读书笔记(1)

摘要：第一章基础 1.安装scala解释器 (1)scala-2.12.1.msi (2)配置环境变量：SCALA_HOME = D:\Program Files\scala Path= %SCALA_HOME%\bin;%SCALA_HOME%\jre\bin; ClassPath =.;%SCALA 阅读全文

posted @ 2018-10-21 20:53 stone1234567890 阅读(315) 评论(0) 推荐(0)

spark复习笔记(2)

摘要：之前工作的时候经常用，隔了段时间，现在学校要用学的东西也忘了，翻翻书谢谢博客吧。 1.什么是spark? Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目阅读全文

posted @ 2018-10-21 16:15 stone1234567890 阅读(256) 评论(0) 推荐(0)

2018年10月18日

python学习笔记(7)文件的访问与函数式编程

摘要：一、文件读写的3中方法 1.直接读入读取文件的3种方法： read()将文本文件的所有行读取到一个字符串中去。 readline()是一行一行的读取 readlines()是将文本文件的所有行读取到一个list中去，文本文件的每一行都是一个list的一个元素。优点：readline()可以在读取的阅读全文

posted @ 2018-10-18 15:16 stone1234567890 阅读(326) 评论(0) 推荐(0)

分布式爬虫(1)

摘要：一、环境搭建 1.python 2.7 2.pip ，并设置pip源 (1)配置pip conf ，自动设置源 #mkdir ~/.pip #vim ~/.pip/pip.conf [gloabal] index-url=https://pypi.tuna.tsinghua.edu.cn/simpl 阅读全文

posted @ 2018-10-18 07:33 stone1234567890 阅读(255) 评论(0) 推荐(0)

2018年10月17日

python学习笔记(7): 面向对象

摘要：一、类和实例 1.类(Class)：用来具有相同属性和方法的对象的集合。它定义了该集合汇总的每个对象共有的属性和方法，对象是类的实例。 2.类变量：类变量在整个实例化的对象中是公用的。类变量定义在类中，且定义在函数体外。类变量通常不作为实例变量使用。 3.实例变量：定义在方法中的变量，只作用于当前实阅读全文

posted @ 2018-10-17 18:57 stone1234567890 阅读(223) 评论(0) 推荐(0)

2018年10月16日

python学习笔记(7)容器以及容器的访问使用

摘要：一、容器 1.list列表序列是python中最基本的数据结构，序列中的每个元素都分配一个数字，它的位置或索引，第一个索引是0，第二个索引是1，以此类推类表的数据项不需要具有相同的数据类型 list创建添加元素(list only):append,extends 删除元素(list only) 阅读全文

posted @ 2018-10-16 19:24 stone1234567890 阅读(751) 评论(0) 推荐(0)

2018年10月15日

python学习笔记(6)关键字与循环控制

摘要：一、变量和类型 1.基本变量类型 (1)整数 (2)浮点数 (3)字符串 (4)布尔值 (5)空值 (6)函数 (7)模块 (8)类型 (9)自定义类型 <class 'int'> <class 'float'> <class 'float'> <class 'str'> <class 'bool' 阅读全文

posted @ 2018-10-15 19:57 stone1234567890 阅读(374) 评论(0) 推荐(0)

2018年10月14日

python学习笔记(5)

摘要：第七章模式匹配和正则表达式 1.不用正则表达式来查找文本模式 2.用正则表达式查找文本模式 (1)正则表达式，简称为regex，是文本模式的描述方法。如\d是一个正则表达式，表示的是一位数字的字符，即任何0-9之间的数字。python使用正则表达式\d\d\d-\d\d\d-\d\d\d\d，来匹阅读全文

posted @ 2018-10-14 10:45 stone1234567890 阅读(362) 评论(0) 推荐(0)

大数据开发程序猿

做有态度的码农，欢迎各位朋友光临，本博客长期更新，需要学习讨论找工作面试的同学可以加qq群：694117549，交个朋友相互交流。

公告