随笔分类 -  Spark

摘要:Scylla兼容cassandra API,所以可以使用spark读写cassandra的方法来进行读写 1.查看scyllaDB对应的cassandra版本 cqlsh:my_db> SHOW VERSION [cqlsh 5.0.1 | Cassandra 3.0.8 | CQL spec 3. 阅读全文
posted @ 2021-11-09 22:01 tonglin0325 阅读(379) 评论(0) 推荐(0) 编辑
摘要:学习的资料是官网的Programming Guide 首先是GraphX的简介 GraphX是Spark中专门负责图和图并行计算的组件。 GraphX通过引入了图形概念来继承了Spark RDD:一个连接节点和边的有向图 为了支持图计算,GraphX引入了一些算子: subgraph, joinVe 阅读全文
posted @ 2018-01-26 18:22 tonglin0325 阅读(973) 评论(0) 推荐(0) 编辑
摘要:首先自己造了一份简单的社交关系的图 第一份是人物数据,id和姓名,person.txt 第二份是社交关系数据,两个人的id和社交关系,social.txt 使用SparkX和GraphStream来处理数据 可视化的结果,该图数据节点数很少,本来想尝试一份百万节点的数据,结果遇到了爆内存的问题 后来 阅读全文
posted @ 2018-01-23 23:11 tonglin0325 阅读(1613) 评论(3) 推荐(0) 编辑
摘要:package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.{SQLContext, SparkSession} import or 阅读全文
posted @ 2017-05-26 16:19 tonglin0325 阅读(775) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.ml.classification.RandomForestClassifier import org.apache.spark.ml.regression.RandomForestRegressor import org.apache.spark.m 阅读全文
posted @ 2017-05-25 23:46 tonglin0325 阅读(1021) 评论(0) 推荐(0) 编辑
摘要:1.建立TF-IDF模型 阅读全文
posted @ 2017-05-07 23:20 tonglin0325 阅读(660) 评论(0) 推荐(0) 编辑
摘要:spark可以使用SparkListener API在spark运行的过程中监控spark任务当前的运行状态,参考:SparkListener监听使用方式及自定义的事件处理动作 编写 MySparkAppListener package com.bigdata.spark import org.ap 阅读全文
posted @ 2017-05-06 16:18 tonglin0325 阅读(431) 评论(0) 推荐(0) 编辑
摘要:Spark中常见的三种分类模型:线性模型、决策树和朴素贝叶斯模型。 线性模型,简单而且相对容易扩展到非常大的数据集;线性模型又可以分成:1.逻辑回归;2.线性支持向量机 决策树是一个强大的非线性技术,训练过程计算量大并且较难扩展(幸运的是,MLlib会替我们考虑扩展性的问题),但是在很多情况下性能很 阅读全文
posted @ 2017-05-01 20:10 tonglin0325 阅读(418) 评论(0) 推荐(0) 编辑
摘要:推荐模型 推荐模型的种类分为: 1.基于内容的过滤:基于内容的过滤利用物品的内容或是属性信息以及某些相似度定义,来求出与该物品类似的物品。 2.协同过滤:协同过滤是一种借助众包智慧的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义。 在基于用户的方法的中 阅读全文
posted @ 2017-04-29 21:39 tonglin0325 阅读(922) 评论(12) 推荐(2) 编辑
摘要:数据获得的方式多种多样,常用的公开数据集包括: 1.UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/ 2.Amazon AWS公开数据集:包含的通常是大型数据集,可通过Ama 阅读全文
posted @ 2017-04-29 11:38 tonglin0325 阅读(2720) 评论(0) 推荐(0) 编辑
摘要:使用MLlib库中的机器学习算法对垃圾邮件进行分类 分类的垃圾邮件的如图中分成4个文件夹,两个文件夹是训练集合,两个文件夹是测试集合 build.sbt文件 代码 结果 阅读全文
posted @ 2017-04-28 22:53 tonglin0325 阅读(430) 评论(0) 推荐(0) 编辑
摘要:许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用, 还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。 阅读全文
posted @ 2017-04-25 23:33 tonglin0325 阅读(395) 评论(0) 推荐(0) 编辑
摘要:1.首先在HBase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作 一个cell的值,取决于Row,Column family,Column Qualifier和Timestamp HBase表结构 2.往HBase中写入数据,写入的时候,需要写family和col 阅读全文
posted @ 2017-04-18 17:20 tonglin0325 阅读(672) 评论(0) 推荐(0) 编辑
摘要:使用Spark读写HDFS中的parquet文件 文件夹中的parquet文件 build.sbt文件 Scala实现方法 df.show打印出来的信息,如果没放在一个case class中的话,name,url,info,summary这列信息会变成1,2,3,4 使用spark-shell查看写 阅读全文
posted @ 2017-04-18 14:54 tonglin0325 阅读(892) 评论(0) 推荐(0) 编辑
摘要:1.使用Spark读取MySQL中某个表中的信息 build.sbt文件 Mysql.scala文件 输出 2.使用Spark写MySQL中某个表中的信息 阅读全文
posted @ 2017-04-13 09:53 tonglin0325 阅读(4422) 评论(0) 推荐(0) 编辑
摘要:Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点。这个中央协调节点被称为驱动器( Driver) 节点。与之对应的工作节点被称为执行器( executor) 节点。 所有的 Spark 程序都遵循同样的结构:程序从输入数据创建一系列 RDD, 再使用转化操作派 阅读全文
posted @ 2017-04-10 13:53 tonglin0325 阅读(809) 评论(0) 推荐(0) 编辑
摘要:spark所支持的文件格式 1.文本文件 在 Spark 中读写文本文件很容易。 当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为 RDD 的 一个元素。 也可以将多个完整的文本文件一次性读取为一个 pair RDD, 其中键是文件名,值是文件内容。 在 Scala 中读取一个文本文件 阅读全文
posted @ 2017-04-08 17:21 tonglin0325 阅读(31389) 评论(2) 推荐(1) 编辑
摘要:键值对 RDD是 Spark 中许多操作所需要的常见数据类型 键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。 Spark 为包含键值对类型的 RDD 提供了一些专有的操作。 1.创建Pair RDD 2.Pair RDD的转化 阅读全文
posted @ 2017-04-07 18:50 tonglin0325 阅读(579) 评论(0) 推荐(0) 编辑
摘要:1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD、转换已有的RDD和调用RDD操作进行求值。 Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区 阅读全文
posted @ 2017-04-06 10:36 tonglin0325 阅读(370) 评论(0) 推荐(0) 编辑
摘要:1.通过realy机器登录relay-shell ssh XXX@XXX 2.登录了跳板机之后,连接可以用的机器 XXXX.bj 3.在本地的idea生成好程序的jar包(word-count_2.11-1.0.jar)之后,把jar包和需要put到远程机器的hdfs文件系统中的文件通过scp命令从 阅读全文
posted @ 2017-04-05 20:04 tonglin0325 阅读(883) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示