摘要:
好长时间忙的没写博客了。看到有人问spark的knn,想着做推荐入门总用的knn算法,顺便写篇博客。 作者:R星月 http://www.cnblogs.com/rxingyue/p/6182526.html knn算法的大致如下: 1)算距离:给定测试对象,计算它与训练集中的每个对象的距离 2)找 阅读全文
摘要:
Phoenix是个很好的hbase 查询工具,在hbase中安装也很简单,可以按照 http://www.cnblogs.com/laov/p/4137136.html 这个连接中进行配置客户端和服务端的Phoenix。PhoenixSQL有如下类:增删数据:ExecutableAddCol... 阅读全文
摘要:
运用hbase好长时间了,今天利用闲暇时间把Hbase的各种查询总结下,以后有时间把协处理器和自定义File总结下。 查询条件分为: 1、统计表数据 2,hbase 简单分页 3,like 查询 4, AND 查询 5, OR 查询 6 ,rowkey 的 in 查询 7, 正则查询... 阅读全文
摘要:
作者:R星月 出处:http://www.cnblogs.com/rxingyue 欢迎转载,也请保留这段声明。谢谢!做一个项目中由于数据量比较大,并且需要定时增量分析,做了hbase的分页。项目中用到的版本是hbase1.1 。需要启用协处理器 Aggregation1.启动全局aggregati... 阅读全文
摘要:
作业调度简介 设计者将资源进行不同粒度的抽象建模,然后将资源统一放入调度器,通过一定的算法进行调度,最终要达到高吞吐或者低访问延时的目的。 Spark在各种运行模式中各个角色实现的功能基本一致,只不过是在特定的资源管理器下使用略微不同的名称和调度机制。 Application调度 一个Applica 阅读全文
摘要:
local单机模式:结果xshell可见:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100stan 阅读全文
摘要:
在Spark中使用sql时一些功能需要自定义方法实现,这时候就可以使用UDF功能来实现 多参数支持 UDF不支持参数*的方式输入多个参数,例如String*,不过可以使用array来解决这个问题。 定义udf方法,此处功能是将多个字段合并为一个字段 在sql中使用 在DataFrame中使用 阅读全文
摘要:
DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行 3、 count() 返回一个number类型的,返回dataf 阅读全文
摘要:
Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 阅读全文
摘要:
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。 一、DataFrame对象的生成 阅读全文
摘要:
RDD、DataFrame和Dataset是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD-DataFrame RDD-DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数, 阅读全文
摘要:
Spark作业的基本概念 -Application:用户自定义的Spark程序,用户提交后,Spark为App分配资源将程序转换并执行。 -Driver Program:运行Application的main()函数并且创建SparkContext。 -RDD DAG:当RDD遇到Action算子,将 阅读全文
摘要:
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体 阅读全文
摘要:
Spark的性能分析和调优很有意思,今天再写一篇。主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。 以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如实 阅读全文