5.Spark-Learning - 随笔分类 - CJZhaoSimons

spark-sklearn（spark扩展scikitlearn）

摘要：（1）官方规定安装条件：此包装具有以下要求： -*最新版本的scikit学习。版本0.17已经过测试，旧版本也可以使用。- *Spark> = 2.0。 Spark可以从对应官网下载[Spark官方网站]（http://spark.apache.org/） -*为了使用spark-sklearn，阅读全文

posted @ 2017-08-07 09:23 CJZhaoSimons 阅读(4432) 评论(0) 推荐(0)

PyCharm+Eclipse共用Anaconda的数据科学环境

摘要：1.安装anaconda2 安装好之后，本地python环境就采用anaconda自带的python2.7的环境。 2.安装py4j 在本地ctrl+r打开控制台后，直接使用pip安装py4j，因为anaconda默认是安装了pip的，当然也可以使用conda安装。安装命令：pip install 阅读全文

posted @ 2017-06-02 12:59 CJZhaoSimons 阅读(1204) 评论(0) 推荐(0)

Sublime2或3配置R、Scala、Python交互式环境

摘要：1.Sublime3的下载地址：http://www.sublimetext.com/3 2.刚刚安装的软件是没有PackageControl的，需要在新安装使用（1）以前没有安装过Package Control插件的，请先安装Package Control插件。进入https://packag 阅读全文

posted @ 2017-05-18 11:06 CJZhaoSimons 阅读(1137) 评论(0) 推荐(0)

IDEA安装Scala插件

摘要：1.选择File-Setting-输入Scala后可点击下载 2.选择New创建Project 3.构建Scala程序的两种方式： 3.1 选择Scala之后选择SBT构建方式构建Scala程序或者3.2 直接选择Scala应用程序构建Scala代码 4.根据上述3.1的SBT构建方式键入项目名称阅读全文

posted @ 2017-05-17 15:32 CJZhaoSimons 阅读(3219) 评论(0) 推荐(0)

Python实现KNN算法及手写程序识别

摘要：1.Python实现KNN算法输入：inX：与现有数据集（1xN）进行比较的向量 dataSet：已知向量的大小m数据集（NxM）个标签：数据集标签（1xM矢量） k：用于比较的邻居数（应为奇数）输出：最受欢迎的类标签(归类问题) 2.数据集(测试集合训练集) 3.KNN测试结果阅读全文

posted @ 2017-05-03 09:33 CJZhaoSimons 阅读(1095) 评论(1) 推荐(0)

Scikit-Learn实战KNN

摘要：Scikit-Learn总结 Scikit-Learn（基于Python的工具包） 1.是一个基于Numpy，Scipy，Matplotlib的开源机器学习工具包。 2.该包于2007年发起，基本功能包涵了6个方面：分类、回归、聚类、数据降维、模型选择、预处理包括了大量常用的算法：：SVM,逻辑回阅读全文

posted @ 2017-05-03 09:02 CJZhaoSimons 阅读(840) 评论(0) 推荐(0)

Anaconda中配置Pyspark的Spark开发环境

摘要：1.windows下载并安装Anaconda集成环境 URL:https://www.continuum.io/downloads 2.在控制台中测试ipython是否启动正常 3.安装JDK 3.1环境变量配置： 3.2测试： 4.安装Spark并配置环境变量 4.1 URL: http://sp 阅读全文

posted @ 2017-04-05 08:39 CJZhaoSimons 阅读(20944) 评论(0) 推荐(0)

Scala学习笔记(3)-表达式归纳

摘要：语法：使用表达式定义值和变量 val <identifier>[:<type>]=<expression> 字面值类型 var <identifier>[:<type>]=<expression> 变量类型实例1：同一级定义类型 scala> val x=5*20;val amount=x+10 阅读全文

posted @ 2017-04-05 08:14 CJZhaoSimons 阅读(381) 评论(0) 推荐(0)

SparkR-Install

摘要：1.下载R 1.1 下载URL:https://cran.r-project.org/src/base/R-3/ 1.2 环境变量配置 1.3 测试安装： 2.下载Rtools33 URL：https://cran.r-project.org/bin/windows/Rtools/ 2.1 配置环境阅读全文

posted @ 2017-03-30 21:49 CJZhaoSimons 阅读(474) 评论(0) 推荐(0)

推荐系统之最小二乘法ALS的Spark实现

摘要：1.ALS算法流程：初始化数据集和Spark环境 > 切分测试机和检验集 > 训练ALS模型 > 验证结果 > 检验满足结果 >直接推荐商品，否则继续训练ALS模型 2.数据集的含义 Rating是固定的ALS输入格式，要求是一个元组类型的数据，其中数值分别是如下的[Int,Int,Double] 阅读全文

posted @ 2017-03-30 20:15 CJZhaoSimons 阅读(5571) 评论(0) 推荐(1)

推荐系统之余弦相似度的Spark实现

摘要：推荐系统之余弦相似度的Spark实现（1）原理分析余弦相似度度量是相似度度量中最常用的度量关系，从程序分析中，第一步是数据的输入，其次是使用相似性度量公式最后是对不同用户的递归计算。本例子是基于欧几里得举例的相似度计算。（2）源代码点击可复制代码 1 package com.bigd 阅读全文

posted @ 2017-03-29 18:42 CJZhaoSimons 阅读(5917) 评论(0) 推荐(0)

推荐系统知识体系

摘要：推荐系统基础知识体系结构： 1.为什么使用推荐系统随着互联网行业的发展，信息量也在以几何倍数式爆发增长。垃圾信息越来越多，导致用户获取有价值信息的成本大大增加。由于信息的爆炸式增长，对信息获取的有效性，针对性的需求也就自然出现了。面对信息过载，推荐系统应运而生。促进厂商商品销售，帮助用户找到想阅读全文

posted @ 2017-03-29 18:04 CJZhaoSimons 阅读(1190) 评论(0) 推荐(0)

Scala学习笔记(2)-类型注意

摘要：Scala类型注意事项： 1.Any是绝对的根，所有的其他可实例化类型均有AnyVal和AnyRef派生。 2.所有AnyVal的类型成为值类型(所有数值类型、char、Booble和Unit) 3.而其他类型都以AnyRef(引用类型)为根，并且只能做为对象在堆中分配内存，通过一个内存引用来访问。阅读全文

posted @ 2017-03-29 16:22 CJZhaoSimons 阅读(535) 评论(0) 推荐(0)

Scala学习笔记(1)-基本类型归纳

摘要：1.小试牛刀使用Scala自带的REPL shell(Read Evaluate Print Loop)学习和尝试Scala语言库，创建的变量在会话期间都是有效的。 Ctrl+D可退出REPL shell 实验1： scala> println("hello world")hello world 阅读全文

posted @ 2017-03-26 23:02 CJZhaoSimons 阅读(567) 评论(0) 推荐(0)

Spark+IDEA单机版环境搭建+IDEA快捷键

摘要：1. IDEA中配置Spark运行环境请参考博文：http://www.cnblogs.com/jackchen-Net/p/6867838.html 3.1.Project Struct查看项目的配置信息 3.2.IDEA中如果没有默认安装Scala，可在本地安装即可如果需要安装多版本的sca 阅读全文

posted @ 2017-03-26 20:08 CJZhaoSimons 阅读(2206) 评论(0) 推荐(0)

Mr.Zhao

---做好每一件小事

随笔分类 - 5.Spark-Learning

公告