随笔档案「2018年6月」 - 爱知菜

PageRank 算法 Spark实现(Scala + Python)

摘要：转自: https://plmsmile.github.io/2017/03/13/Spark-PairRDD/ PageRank PageRank的python版本 #!/usr/bin/env python # -*- coding: utf-8 -*- """ PageRank算法 autho 阅读全文

posted @ 2018-06-28 16:34 爱知菜阅读(102) 评论(0) 推荐(0)

Spark-on-Yarn集群的搭建

摘要：Spark master/deploy mode说明 spark driver：运⾏main函数并且新建SparkContext的程序，日志收集。对用户来说，最重要的体验就是当driver是本机时（deploy-mode=client模式），他们可以看到日志。 --deploy-mode: Whe 阅读全文

posted @ 2018-06-28 14:14 爱知菜阅读(30) 评论(0) 推荐(0)

Hadoop map-reduce 实现K-means聚类(combiner的使用)

摘要：K-means聚类简单回顾一下, 就是一个不停迭代的过程, 先随机若干个中心, 然后找出距离这几个中心最近的点, 然后把这些最近点的中心求出来作为新的中心. 使用map reducer来说 mapper的作用就是遍历所有点, 把这个点以及距离它最近的中心找到, 如果我们把点定义为D, 把中心定义为C 阅读全文

posted @ 2018-06-25 15:06 爱知菜阅读(30) 评论(0) 推荐(0)

Azure HDinsight 结合 hadoop streaming(python)

摘要：在Azure中Hadoop被拆成了两个服务: Azure Data Lake Store 和 HDinsight Clusters Azure Data Lake Store 即HDFS, 按储存量/小时和读写次数收费 HDinsight Clusters 即YARN以及SPARK, hive等阅读全文

posted @ 2018-06-21 15:01 爱知菜阅读(34) 评论(0) 推荐(0)

Hadoop Streaming 使用 Python + NLTK 进行大数据分词心得

摘要：Hadoop Streaming 就是使用 hadoop jar命令调用streaming jar包进行MR. 通过标准输入和标准输出进行交互. 脚本语言如python会从标准输入中读, 向标准输入中写. hadoop jar 命令有两种类型的参数, generic options 和 comma 阅读全文

posted @ 2018-06-15 17:21 爱知菜阅读(33) 评论(0) 推荐(0)

Sending Files to Remote Task Nodes with Hadoop MapReduce

摘要：It is common for a MapReduce program to require one or more files to be read by each map or reduce task before execution. For example, you may have a 阅读全文

posted @ 2018-06-14 17:49 爱知菜阅读(18) 评论(0) 推荐(0)

爱知菜的技术博客

06 2018 档案

公告