上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 42 下一页
摘要: 转自: https://plmsmile.github.io/2017/03/13/Spark-PairRDD/ PageRank PageRank的python版本 #!/usr/bin/env python # -*- coding: utf-8 -*- """ PageRank算法 autho 阅读全文
posted @ 2018-06-28 16:34 爱知菜 阅读(61) 评论(0) 推荐(0) 编辑
摘要: Spark master/deploy mode说明 spark driver: 运⾏main函数并且新建SparkContext的程序,日志收集。对用户来说,最重要的体验就是当driver是本机时(deploy-mode=client模式),他们可以看到日志。 --deploy-mode: Whe 阅读全文
posted @ 2018-06-28 14:14 爱知菜 阅读(12) 评论(0) 推荐(0) 编辑
摘要: K-means聚类简单回顾一下, 就是一个不停迭代的过程, 先随机若干个中心, 然后找出距离这几个中心最近的点, 然后把这些最近点的中心求出来作为新的中心. 使用map reducer来说 mapper的作用就是遍历所有点, 把这个点以及距离它最近的中心找到, 如果我们把点定义为D, 把中心定义为C 阅读全文
posted @ 2018-06-25 15:06 爱知菜 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 在Azure中Hadoop被拆成了两个服务: Azure Data Lake Store 和 HDinsight Clusters Azure Data Lake Store 即HDFS, 按储存量/小时 和 读写次数收费 HDinsight Clusters 即YARN以及SPARK, hive等 阅读全文
posted @ 2018-06-21 15:01 爱知菜 阅读(13) 评论(0) 推荐(0) 编辑
摘要: Hadoop Streaming 就是使用 hadoop jar命令 调用streaming jar包进行MR. 通过标准输入和标准输出进行交互. 脚本语言如python会从标准输入中读, 向标准输入中写. hadoop jar 命令有两种类型的参数, generic options 和 comma 阅读全文
posted @ 2018-06-15 17:21 爱知菜 阅读(13) 评论(0) 推荐(0) 编辑
摘要: It is common for a MapReduce program to require one or more files to be read by each map or reduce task before execution. For example, you may have a 阅读全文
posted @ 2018-06-14 17:49 爱知菜 阅读(4) 评论(0) 推荐(0) 编辑
摘要: Hive命令行中可以使用 add file /path/python/script.py 来添加脚本 Hive会把查询结果输入到标准输入, 在map阶段Python从标准输入中读取, 逐行处理, 返回结果 比如 select TRANSFORM(col1, col2) using 'python s 阅读全文
posted @ 2018-05-31 19:10 爱知菜 阅读(15) 评论(0) 推荐(0) 编辑
摘要: Hive必须以service模式运行: hive --service hiveserver2 hiveserver2 --hiveconf hive.server2.thrift.port=20001 Java maven 项目的pom.xml中加上: <dependency> <groupId>o 阅读全文
posted @ 2018-05-25 17:58 爱知菜 阅读(91) 评论(0) 推荐(0) 编辑
摘要: Java的类中可以定义静态代码块, 每次我们使用hive的create [temporary] function语句时,会调用UDF中的静态代码块. 静态代码块是类加载时用到调用的. UDF并不是每有一行记录就会实例化一次, 而是复用的. Hive会在HiveQL语句运行之初就实例化若干个UDF的实 阅读全文
posted @ 2018-05-25 17:52 爱知菜 阅读(13) 评论(0) 推荐(0) 编辑
摘要: GenericUDF提供了更好的参数和返回值检查, 效率更高, 适合处理HIVE中的复杂数据类型 把字符串变成词向量, 例如: "This is a sentence"->{'This':1, 'is':1, 'a':1, 'sentence':1} 对于外部依赖, 为了让集群的每个节点都能执行ja 阅读全文
posted @ 2018-05-23 18:14 爱知菜 阅读(41) 评论(0) 推荐(0) 编辑
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 42 下一页