R星月

[置顶] spark 之knn算法

摘要：好长时间忙的没写博客了。看到有人问spark的knn，想着做推荐入门总用的knn算法，顺便写篇博客。作者：R星月 http://www.cnblogs.com/rxingyue/p/6182526.html knn算法的大致如下： 1）算距离：给定测试对象，计算它与训练集中的每个对象的距离 2）找阅读全文

posted @ 2016-12-15 11:24 R星月阅读(5886) 评论(0) 推荐(0) 编辑

[置顶] hbase查询基于标准sql规范中间件Phoenix

摘要： Phoenix是个很好的hbase 查询工具，在hbase中安装也很简单，可以按照 http://www.cnblogs.com/laov/p/4137136.html 这个连接中进行配置客户端和服务端的Phoenix。PhoenixSQL有如下类：增删数据：ExecutableAddCol... 阅读全文

posted @ 2015-12-07 17:50 R星月阅读(1371) 评论(0) 推荐(0) 编辑

[置顶] Hbase各种查询总结

摘要：运用hbase好长时间了，今天利用闲暇时间把Hbase的各种查询总结下，以后有时间把协处理器和自定义File总结下。查询条件分为： 1、统计表数据 2，hbase 简单分页 3，like 查询 4， AND 查询 5， OR 查询 6 ，rowkey 的 in 查询 7，正则查询... 阅读全文

posted @ 2015-12-03 15:58 R星月阅读(9432) 评论(0) 推荐(0) 编辑

[置顶] 实现Hbase的分页

摘要：作者：R星月出处：http://www.cnblogs.com/rxingyue 欢迎转载，也请保留这段声明。谢谢!做一个项目中由于数据量比较大，并且需要定时增量分析，做了hbase的分页。项目中用到的版本是hbase1.1 。需要启用协处理器 Aggregation1.启动全局aggregati... 阅读全文

posted @ 2015-09-01 14:14 R星月阅读(8918) 评论(1) 推荐(0) 编辑

2017年7月3日

Spark的调度

摘要：作业调度简介设计者将资源进行不同粒度的抽象建模，然后将资源统一放入调度器，通过一定的算法进行调度，最终要达到高吞吐或者低访问延时的目的。 Spark在各种运行模式中各个角色实现的功能基本一致，只不过是在特定的资源管理器下使用略微不同的名称和调度机制。 Application调度一个Applica 阅读全文

posted @ 2017-07-03 22:06 R星月阅读(299) 评论(0) 推荐(0) 编辑

Spark运行命令示例

摘要： local单机模式：结果xshell可见：./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100stan 阅读全文

posted @ 2017-07-03 22:02 R星月阅读(452) 评论(0) 推荐(0) 编辑

sparkSQL中udf的使用

摘要：在Spark中使用sql时一些功能需要自定义方法实现，这时候就可以使用UDF功能来实现多参数支持 UDF不支持参数*的方式输入多个参数，例如String*，不过可以使用array来解决这个问题。定义udf方法，此处功能是将多个字段合并为一个字段在sql中使用在DataFrame中使用阅读全文

posted @ 2017-07-03 22:00 R星月阅读(3175) 评论(0) 推荐(0) 编辑

spark dataframe函数编程

摘要： DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组，返回dataframe集合所有的行 2、 collectAsList() 返回值是一个Java类型的数组，返回dataframe集合所有的行 3、 count() 返回一个number类型的，返回dataf 阅读全文

posted @ 2017-07-03 21:59 R星月阅读(394) 评论(0) 推荐(0) 编辑

spark dataframe操作集锦（提取前几行，合并，入库等）

摘要： Spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就阅读全文

posted @ 2017-07-03 21:58 R星月阅读(803) 评论(0) 推荐(0) 编辑

Spark-SQL之DataFrame操作大全

摘要： Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成阅读全文

posted @ 2017-07-03 21:57 R星月阅读(34186) 评论(0) 推荐(1) 编辑

RDD、DataFrame和Dataset的区别

摘要： RDD、DataFrame和Dataset是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。 RDD和DataFrame RDD-DataFrame RDD-DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，阅读全文

posted @ 2017-07-03 21:56 R星月阅读(633) 评论(0) 推荐(0) 编辑

Spark的基本概念及工作原理

摘要： Spark作业的基本概念 -Application：用户自定义的Spark程序，用户提交后，Spark为App分配资源将程序转换并执行。 -Driver Program：运行Application的main()函数并且创建SparkContext。 -RDD DAG：当RDD遇到Action算子，将阅读全文

posted @ 2017-07-03 21:55 R星月阅读(257) 评论(0) 推荐(0) 编辑

在Spark集群中，集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系

摘要：梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体阅读全文

posted @ 2017-07-03 21:54 R星月阅读(298) 评论(0) 推荐(0) 编辑

Spark性能优化——和shuffle搏斗

摘要： Spark的性能分析和调优很有意思，今天再写一篇。主要话题是shuffle，当然也牵涉一些其他代码上的小把戏。以前写过一篇文章，比较了几种不同场景的性能优化，包括portal的性能优化，web service的性能优化，还有Spark job的性能优化。Spark的性能优化有一些特殊的地方，比如实阅读全文

posted @ 2017-07-03 21:49 R星月阅读(677) 评论(0) 推荐(0) 编辑

关注数据挖掘，机器学习
http://www.cnblogs.com/rxingye

公告

R星月

关注 数据挖掘，机器学习 http://www.cnblogs.com/rxingye

公告

关注数据挖掘，机器学习
http://www.cnblogs.com/rxingye