04 2017 档案

摘要:推荐模型 推荐模型的种类分为: 1.基于内容的过滤:基于内容的过滤利用物品的内容或是属性信息以及某些相似度定义,来求出与该物品类似的物品。 2.协同过滤:协同过滤是一种借助众包智慧的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义。 在基于用户的方法的中 阅读全文
posted @ 2017-04-29 21:39 tonglin0325 阅读(921) 评论(12) 推荐(2) 编辑
摘要:数据获得的方式多种多样,常用的公开数据集包括: 1.UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/ 2.Amazon AWS公开数据集:包含的通常是大型数据集,可通过Ama 阅读全文
posted @ 2017-04-29 11:38 tonglin0325 阅读(2720) 评论(0) 推荐(0) 编辑
摘要:使用MLlib库中的机器学习算法对垃圾邮件进行分类 分类的垃圾邮件的如图中分成4个文件夹,两个文件夹是训练集合,两个文件夹是测试集合 build.sbt文件 代码 结果 阅读全文
posted @ 2017-04-28 22:53 tonglin0325 阅读(430) 评论(0) 推荐(0) 编辑
摘要:许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用, 还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。 阅读全文
posted @ 2017-04-25 23:33 tonglin0325 阅读(395) 评论(0) 推荐(0) 编辑
摘要:1.Option类型 Option类型可以有两种类型,一种是Some(x),一种是None对象 比如Scala的Map的get方法发现了指定键,返回Some(x),没有发现,返回None对象 2.列表 List类型中的所有元素都具有相同的类型。 空列表的类型为List[Nothing]。对于任意类型 阅读全文
posted @ 2017-04-19 23:46 tonglin0325 阅读(413) 评论(0) 推荐(0) 编辑
摘要:1.样本类 在申明的类前面加上一个case修饰符,带有这种修饰符的类被称为样本类(case class)。 被申明为样本类的类的特点:1.会添加和类名一致的工厂方法;2.样本类参数列表中的所有参数隐式获得了val前缀,因此它被当做字段维护;3.编译器被这个样本类添加了toString、hashcod 阅读全文
posted @ 2017-04-19 23:04 tonglin0325 阅读(438) 评论(0) 推荐(0) 编辑
摘要:1.断言 assert(conditon)将在条件不成立的时候,抛出assertionError assert(conditon,explanation)讲在条件不成立的时候,抛出explanation作为说明 2.单元测试 Scala中提供了多种单元测试的方法,比如ScalaTest ScalaT 阅读全文
posted @ 2017-04-19 17:45 tonglin0325 阅读(1832) 评论(0) 推荐(0) 编辑
摘要:1.首先在HBase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作 一个cell的值,取决于Row,Column family,Column Qualifier和Timestamp HBase表结构 2.往HBase中写入数据,写入的时候,需要写family和col 阅读全文
posted @ 2017-04-18 17:20 tonglin0325 阅读(672) 评论(0) 推荐(0) 编辑
摘要:使用Spark读写HDFS中的parquet文件 文件夹中的parquet文件 build.sbt文件 Scala实现方法 df.show打印出来的信息,如果没放在一个case class中的话,name,url,info,summary这列信息会变成1,2,3,4 使用spark-shell查看写 阅读全文
posted @ 2017-04-18 14:54 tonglin0325 阅读(892) 评论(0) 推荐(0) 编辑
摘要:1.简化代码 输出是 2.柯里化 3.继承 4.特质 阅读全文
posted @ 2017-04-16 11:45 tonglin0325 阅读(325) 评论(0) 推荐(0) 编辑
摘要:1.使用Spark读取MySQL中某个表中的信息 build.sbt文件 Mysql.scala文件 输出 2.使用Spark写MySQL中某个表中的信息 阅读全文
posted @ 2017-04-13 09:53 tonglin0325 阅读(4422) 评论(0) 推荐(0) 编辑
摘要:进入HBase的安装目录,启动HBase bin/start-hbase.sh 打开shell命令行模式 bin/hbase shell 关闭HBase bin/stop-hbase.sh 一个cell的值,取决于Row,Column family,Column Qualifier和Timestam 阅读全文
posted @ 2017-04-12 22:09 tonglin0325 阅读(1429) 评论(0) 推荐(0) 编辑
摘要:Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点。这个中央协调节点被称为驱动器( Driver) 节点。与之对应的工作节点被称为执行器( executor) 节点。 所有的 Spark 程序都遵循同样的结构:程序从输入数据创建一系列 RDD, 再使用转化操作派 阅读全文
posted @ 2017-04-10 13:53 tonglin0325 阅读(809) 评论(0) 推荐(0) 编辑
摘要:spark所支持的文件格式 1.文本文件 在 Spark 中读写文本文件很容易。 当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为 RDD 的 一个元素。 也可以将多个完整的文本文件一次性读取为一个 pair RDD, 其中键是文件名,值是文件内容。 在 Scala 中读取一个文本文件 阅读全文
posted @ 2017-04-08 17:21 tonglin0325 阅读(31389) 评论(2) 推荐(1) 编辑
摘要:键值对 RDD是 Spark 中许多操作所需要的常见数据类型 键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。 Spark 为包含键值对类型的 RDD 提供了一些专有的操作。 1.创建Pair RDD 2.Pair RDD的转化 阅读全文
posted @ 2017-04-07 18:50 tonglin0325 阅读(579) 评论(0) 推荐(0) 编辑
摘要:1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD、转换已有的RDD和调用RDD操作进行求值。 Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区 阅读全文
posted @ 2017-04-06 10:36 tonglin0325 阅读(370) 评论(0) 推荐(0) 编辑
摘要:1.通过realy机器登录relay-shell ssh XXX@XXX 2.登录了跳板机之后,连接可以用的机器 XXXX.bj 3.在本地的idea生成好程序的jar包(word-count_2.11-1.0.jar)之后,把jar包和需要put到远程机器的hdfs文件系统中的文件通过scp命令从 阅读全文
posted @ 2017-04-05 20:04 tonglin0325 阅读(883) 评论(0) 推荐(0) 编辑
摘要:1.在清华镜像站点下载hbase的安装文件,选择的是stable的版本,版本号是hbase-1.2.5/ 2.解压放在/usr/local的目录下 3.修改权限 sudo chown -R hduser hadoop hbase-1.2.5/ 4.修改文件夹的名称为hbase 5.在~/.bashr 阅读全文
posted @ 2017-04-05 16:49 tonglin0325 阅读(2605) 评论(0) 推荐(0) 编辑
摘要:1.本地函数 可以在一个方法内再次定义一个方法,这个方法就是外部方法的内部私有方法,省略了private关键字 2.头等函数 集合类的foreach方法 集合类的filter方法 3.函数字面量的短格式,使得函数写的更加简洁 4.占位符语法,如果想让函数字面量更加简洁,可以把下划线当做一个或更多参数 阅读全文
posted @ 2017-04-05 09:34 tonglin0325 阅读(232) 评论(0) 推荐(0) 编辑
摘要:1. cd ~/.config 2.删除三个文件夹: SogouPY, SogouPY.users, sogou-qimpanel 然后重启输入法 阅读全文
posted @ 2017-04-05 09:05 tonglin0325 阅读(1843) 评论(0) 推荐(0) 编辑
摘要:Scala的内建控制结构包括:if、while、for、try、match和函数调用 1.if表达式 2.while循环,while循环和其他语言的一样,有while和do while Scala中对再次赋值语句的返回值是Unit,比如下面这个例子 3.for表达式 4.使用try表达式处理异常 抛 阅读全文
posted @ 2017-04-04 21:47 tonglin0325 阅读(222) 评论(0) 推荐(0) 编辑
摘要:用创建一个函数式对象(类Rational)的过程来说明 类Rational是一种表示有理数(Rational number)的类 阅读全文
posted @ 2017-04-04 13:53 tonglin0325 阅读(222) 评论(0) 推荐(0) 编辑
摘要:1.去清华的镜像站点下载文件spark-2.1.0-bin-without-hadoop.tgz,不要下spark-2.1.0-bin-hadoop2.7.tgz 2.把文件解压到/usr/local目录下,解压之后的效果,Hadoop和Spark都在Hadoop用户下 下面的操作都在Hadoop用 阅读全文
posted @ 2017-04-03 15:43 tonglin0325 阅读(2054) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示