摘要: 多项式函数是变量的整数次幂与系数的乘积之和,可以用下面的数学公式表示: f(x) = a[n]*x^n + a[n-1]*x^(n-1) + … + a[2]*x^2 + a[1]*x + a[0] 由于多项式函数只包含加法和乘法运算,因此它很容易计算,并且可以用于计算其他数学函数的近似值。多项式函 阅读全文
posted @ 2017-03-31 14:47 李小新 阅读(4139) 评论(0) 推荐(0) 编辑
摘要: python结巴(jieba)分词 一、特点 1、支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。 (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 阅读全文
posted @ 2017-01-08 22:37 李小新 阅读(16443) 评论(1) 推荐(3) 编辑
摘要: groupByKey,reduceByKey,sortByKey算子 视频教程: 1、优酷 2、 YouTube 1、groupByKey groupByKey是对每个key进行合并操作,但只生成一个sequence,groupByKey本身不能自定义操作函数。 java: python: 注意:当 阅读全文
posted @ 2017-01-08 18:30 李小新 阅读(6374) 评论(0) 推荐(0) 编辑
摘要: map,filter,flatMap算子 视频教程: 1、优酷 2、YouTube 1、map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的JavaRDD。 java: python: 2、filter 返回一个新的数据集,由经过func函数 阅读全文
posted @ 2017-01-05 10:33 李小新 阅读(8223) 评论(0) 推荐(0) 编辑
摘要: Transformation和action详解 视频教程: 1、优酷 2、YouTube 什么是算子 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 算子分类: 具体: 1、Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型 阅读全文
posted @ 2017-01-05 10:24 李小新 阅读(1978) 评论(0) 推荐(1) 编辑
摘要: Spark-Eclipse开发环境WordCount 视频教程: 1、优酷 2、YouTube 安装eclipse 解压eclipse-jee-mars-2-win32-x86_64.zip JavaWordcount 解压spark-2.0.0-bin-hadoop2.6.tgz 创建 Java 阅读全文
posted @ 2017-01-05 10:22 李小新 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 什么是RDD 视频教程: 1、优酷 2、YouTube RDD是个抽象类,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据,诸如map、fl 阅读全文
posted @ 2017-01-05 10:09 李小新 阅读(743) 评论(0) 推荐(0) 编辑
摘要: Spark集群搭建 视频教程 1、优酷 2、YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到master和slave机器的hadoop用户installer目录下 两台机器都要做 [hadoop 阅读全文
posted @ 2017-01-05 10:07 李小新 阅读(754) 评论(0) 推荐(0) 编辑
摘要: Spark-Hadoop集群搭建 视频教程: 1、优酷 2、YouTube 配置java 启动ftp [root@master ~]# /etc/init.d/vsftpd restart 关闭 vsftpd: [失败] 为 vsftpd 启动 vsftpd: [确定] 默认情况下 root不允许使 阅读全文
posted @ 2017-01-05 10:04 李小新 阅读(1670) 评论(0) 推荐(0) 编辑
摘要: Spark-Linux环境准备 视频教程: 1、优酷 2、YouTube 硬软件环境 1、虚拟机:VMware Workstation 12 2、虚拟机操作系统:RedHat5u4,单核,1G内存,2两台 3、虚拟机运行环境: java version "1.7.0_79" 64位 Scala ve 阅读全文
posted @ 2017-01-05 09:48 李小新 阅读(866) 评论(0) 推荐(0) 编辑