随笔- 310  文章- 1  评论- 0  阅读- 85655 

随笔分类 -  hadoop

pyspark常用函数
摘要:添加新的一列 df = df.withColumn('col_name', F.lit(2)) new_col_name :是新的一列的名字 F.lit(2):是全部都为 2 的一列 按行合并两个datafeame(两个df必须要有相同的columns) df_concat = df1.union( 阅读全文
posted @ 2021-07-28 23:26 boye169 阅读(294) 评论(0) 推荐(0) 编辑
hive基本语法
摘要:创建表 CREATE [EXTERNAL] TABLE t_lxw1234 ( id INT, ip STRING COMMENT '访问者IP', avg_view_depth DECIMAL(5,1), bounce_rate DECIMAL(6,5) ) COMMENT 'lxw的大数据田地- 阅读全文
posted @ 2021-06-01 23:29 boye169 阅读(179) 评论(0) 推荐(0) 编辑
pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用
摘要:reduceByKey、groupByKey rdd=sc. parallelize([("one",1),("two",1),("one",1),("one1",1)]) rdd. reduceByKey(lambda x,y:x). count() rdd1=sc. parallelize([( 阅读全文
posted @ 2021-04-28 23:44 boye169 阅读(1052) 评论(0) 推荐(0) 编辑
Spark SQL
摘要:1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark 阅读全文
posted @ 2021-04-19 21:52 boye169 阅读(75) 评论(0) 推荐(0) 编辑
pyspark SQL
摘要:1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark 阅读全文
posted @ 2021-03-15 23:50 boye169 阅读(217) 评论(0) 推荐(0) 编辑
pyspark 左连接 右连接
摘要:pathA = [('a',1),('b',1),('c',2),('d',3)] pathB = [('c',1),('d',3),('e',3),('f',4),] a = sc.parallelize(pathA) b = sc.parallelize(pathB) a.join(b).col 阅读全文
posted @ 2021-03-15 23:45 boye169 阅读(388) 评论(0) 推荐(0) 编辑
pyspark union、intersection、subtract、cartesian用法
摘要:union、intersection、subtract、cartesian rdd1 = sc.parallelize([1,2,4,5,2,3]) rdd2 = sc.parallelize([4,6,5,7,8,6]) rdd1.union(rdd2).collect(): 所有rdd1和rdd 阅读全文
posted @ 2021-03-15 23:41 boye169 阅读(485) 评论(0) 推荐(0) 编辑
pyspark基本使用
摘要:【Example】 from pysoark. sql import SparkSession def split_line(line): try: return line.split(b"\t") except:pass def map_partitions(partitions): for li 阅读全文
posted @ 2021-03-15 23:31 boye169 阅读(469) 评论(0) 推荐(0) 编辑
pyspark
摘要:# Example from pyspark.sql import SparkSession spark=SparkSession.builder.appName("boye").getOrCreate()#spark = SparkSession.builder.appName("test").m 阅读全文
posted @ 2021-01-11 23:24 boye169 阅读(120) 评论(0) 推荐(0) 编辑
pyspark——Rdd与DataFrame相互转换
摘要:Rdd转DataFrame from pyspark.sql.types import * from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession spark=SparkSession.build 阅读全文
posted @ 2020-10-23 00:04 boye169 阅读(2653) 评论(0) 推荐(0) 编辑
hbase 安装与使用
摘要:安装 1.下载 wget http://mirrors.shu.edu.cn/apache/hbase/1.4.6/hbase-1.4.6-bin.tar.gz tar -zxvf hbase-1.4.6-bin.tar.gz 2.配置 hbase-site.xml 文件 <configuratio 阅读全文
posted @ 2020-10-22 23:56 boye169 阅读(126) 评论(0) 推荐(0) 编辑
《Hbase基本操作》
摘要:[root@slave1 local]#hbase shell #进入HBase客户端命令行 hbase(main):024:0> list [列出HBase的所有表] [创建表] # 创建表t1,有两个family name:f1,f2,且版本数均为2create 't1',{NAME => 'f 阅读全文
posted @ 2020-08-02 11:09 boye169 阅读(126) 评论(0) 推荐(0) 编辑
《hadoop 集群搭建、spark安装、Hbase安装、Hive安装、Kafka安装》
摘要:1 hadoop集群安装 https://blog.csdn.net/shshheyi/article/details/84893371 1.1 修改主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.28.131 master 19 阅读全文
posted @ 2020-07-28 23:41 boye169 阅读(908) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示