穆梓先生 - 博客园

2019年6月28日

摘要：推导式 comprehensions（又称解析式），是 python 的一种独有特性。推导式是可以从一个数据序列构建另一个新的数据序列。 1.1列表推导式语法：变量名 = [表达式 for 变量 in 列表 for 变量 in xxx] 变量名 = [表达式 for 变量 in 列表 if 条件阅读全文

posted @ 2019-06-28 20:51 穆梓先生阅读(8990) 评论(0) 推荐(1) 编辑

2019年6月25日

python流程控制和循环

摘要：变量的命名：可以由数字字母下换线组成，不能以数字开头，可以使用中文但是不推荐使用中文，不推荐前面使用_ __，不能使用系统的关键字，变量名严格区分大小写逻辑运算优先级 or<and<not 可以通过小括号提升优先级 print((False or True) and not False) Fal 阅读全文

posted @ 2019-06-25 19:35 穆梓先生阅读(435) 评论(0) 推荐(0) 编辑

2019年4月3日

大数据脚本相关

摘要： 1.xsync集群分发脚本首先确保集群配置了SSH免密登录。(详见5) （a）在/home/atguigu目录下创建bin目录(/home/atguigu/bin)，并在bin目录下xsync创建文件，文件内容如下：在该文件中编写如下代码（b）修改脚本 xsync 具有执行权限 [atguig 阅读全文

posted @ 2019-04-03 09:33 穆梓先生阅读(267) 评论(0) 推荐(0) 编辑

2019年4月2日

Spark day06

摘要： SparkStreaming简介 SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window 。最终，处理后的数据可以存放在文件系统，数据库... 阅读全文

posted @ 2019-04-02 09:30 穆梓先生阅读(262) 评论(0) 推荐(0) 编辑

Spark day05

摘要： Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql可以直接进行迁移至Shark上... 阅读全文

posted @ 2019-04-02 09:29 穆梓先生阅读(226) 评论(0) 推荐(0) 编辑

什么是PV UV

摘要： PV是网站分析的一个术语，用以衡量网站用户访问的网页的数量。对于广告主，PV值可预期它可以带来多少广告收入。一般来说，PV与来访者的数量成正比，但是PV并不直接决定页面的真实来访者数量，如同一个来访者通过不断的刷新页面，也可以制造出非常高的PV。 1、什么是PV值 PV（page view）即页面浏阅读全文

posted @ 2019-04-02 09:28 穆梓先生阅读(3108) 评论(0) 推荐(0) 编辑

SPARK Day04

摘要：广播变量和累加器广播变量广播变量理解图广播变量使用 val conf = new SparkConf() conf.setMaster("local").setAppName("brocast") val sc = new SparkContext(conf) val ... 阅读全文

posted @ 2019-04-02 09:27 穆梓先生阅读(200) 评论(0) 推荐(0) 编辑

Spark day03

摘要：补充算子 transformations mapPartitionWithIndex 类似于mapPartitions,除此之外还会携带分区的索引值。 repartition 增加或减少分区。会产生shuffle。（多个分区分到一个分区不会产生shuffle） coalesce coalesce常用来减少分区，第二个参数是减少分区的过程中是否产生shuffle。 true为产生shuffle，fa... 阅读全文

posted @ 2019-04-02 09:26 穆梓先生阅读(186) 评论(0) 推荐(0) 编辑

Spark day02

摘要： Standalone模式两种提交任务方式 Standalone-client提交任务方式提交命令 ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000或者 ./spark-su... 阅读全文

posted @ 2019-04-02 09:26 穆梓先生阅读(201) 评论(0) 推荐(0) 编辑

Spark-day01

摘要： Spark初始什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要... 阅读全文

posted @ 2019-04-02 09:25 穆梓先生阅读(288) 评论(0) 推荐(0) 编辑

十八子的python之旅

公告