hadoop - 随笔分类 - boye169

pyspark常用函数

摘要：添加新的一列 df = df.withColumn('col_name', F.lit(2)) new_col_name ：是新的一列的名字 F.lit(2)：是全部都为 2 的一列按行合并两个datafeame（两个df必须要有相同的columns） df_concat = df1.union( 阅读全文

posted @ 2021-07-28 23:26 boye169 阅读(329) 评论(0) 推荐(0)

hive基本语法

摘要：创建表 CREATE [EXTERNAL] TABLE t_lxw1234 ( id INT, ip STRING COMMENT '访问者IP', avg_view_depth DECIMAL(5,1), bounce_rate DECIMAL(6,5) ) COMMENT 'lxw的大数据田地- 阅读全文

posted @ 2021-06-01 23:29 boye169 阅读(240) 评论(0) 推荐(0)

pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用

摘要：reduceByKey、groupByKey rdd=sc. parallelize([("one",1),("two",1),("one",1),("one1",1)]) rdd. reduceByKey(lambda x,y:x). count() rdd1=sc. parallelize([( 阅读全文

posted @ 2021-04-28 23:44 boye169 阅读(1088) 评论(0) 推荐(0)

Spark SQL

摘要：1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark 阅读全文

posted @ 2021-04-19 21:52 boye169 阅读(90) 评论(0) 推荐(0)

pyspark SQL

摘要：1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark 阅读全文

posted @ 2021-03-15 23:50 boye169 阅读(233) 评论(0) 推荐(0)

pyspark 左连接右连接

摘要：pathA = [('a',1),('b',1),('c',2),('d',3)] pathB = [('c',1),('d',3),('e',3),('f',4),] a = sc.parallelize(pathA) b = sc.parallelize(pathB) a.join(b).col 阅读全文

posted @ 2021-03-15 23:45 boye169 阅读(403) 评论(0) 推荐(0)

pyspark union、intersection、subtract、cartesian用法

摘要：union、intersection、subtract、cartesian rdd1 = sc.parallelize([1,2,4,5,2,3]) rdd2 = sc.parallelize([4,6,5,7,8,6]) rdd1.union(rdd2).collect(): 所有rdd1和rdd 阅读全文

posted @ 2021-03-15 23:41 boye169 阅读(504) 评论(0) 推荐(0)

pyspark基本使用

摘要：【Example】 from pysoark. sql import SparkSession def split_line(line): try: return line.split(b"\t") except:pass def map_partitions(partitions): for li 阅读全文

posted @ 2021-03-15 23:31 boye169 阅读(528) 评论(0) 推荐(0)

pyspark

摘要：# Example from pyspark.sql import SparkSession spark=SparkSession.builder.appName("boye").getOrCreate()#spark = SparkSession.builder.appName("test").m 阅读全文

posted @ 2021-01-11 23:24 boye169 阅读(134) 评论(0) 推荐(0)

pyspark——Rdd与DataFrame相互转换

摘要：Rdd转DataFrame from pyspark.sql.types import * from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession spark=SparkSession.build 阅读全文

posted @ 2020-10-23 00:04 boye169 阅读(2674) 评论(0) 推荐(0)

hbase 安装与使用

摘要：安装 1.下载 wget http://mirrors.shu.edu.cn/apache/hbase/1.4.6/hbase-1.4.6-bin.tar.gz tar -zxvf hbase-1.4.6-bin.tar.gz 2.配置 hbase-site.xml 文件 <configuratio 阅读全文

posted @ 2020-10-22 23:56 boye169 阅读(157) 评论(0) 推荐(0)

《Hbase基本操作》

摘要：[root@slave1 local]#hbase shell #进入HBase客户端命令行 hbase(main):024:0> list [列出HBase的所有表] [创建表] # 创建表t1，有两个family name：f1，f2，且版本数均为2create 't1',{NAME => 'f 阅读全文

posted @ 2020-08-02 11:09 boye169 阅读(141) 评论(0) 推荐(0)

《hadoop 集群搭建、spark安装、Hbase安装、Hive安装、Kafka安装》

摘要：1 hadoop集群安装 https://blog.csdn.net/shshheyi/article/details/84893371 1.1 修改主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.28.131 master 19 阅读全文

posted @ 2020-07-28 23:41 boye169 阅读(955) 评论(0) 推荐(0)

随笔分类 - hadoop

公告