随笔- 310
文章- 1
评论- 0
阅读-
85655
随笔分类 - hadoop
pyspark常用函数
摘要:添加新的一列 df = df.withColumn('col_name', F.lit(2)) new_col_name :是新的一列的名字 F.lit(2):是全部都为 2 的一列 按行合并两个datafeame(两个df必须要有相同的columns) df_concat = df1.union(
阅读全文
hive基本语法
摘要:创建表 CREATE [EXTERNAL] TABLE t_lxw1234 ( id INT, ip STRING COMMENT '访问者IP', avg_view_depth DECIMAL(5,1), bounce_rate DECIMAL(6,5) ) COMMENT 'lxw的大数据田地-
阅读全文
pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用
摘要:reduceByKey、groupByKey rdd=sc. parallelize([("one",1),("two",1),("one",1),("one1",1)]) rdd. reduceByKey(lambda x,y:x). count() rdd1=sc. parallelize([(
阅读全文
Spark SQL
摘要:1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark
阅读全文
pyspark SQL
摘要:1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark
阅读全文
pyspark 左连接 右连接
摘要:pathA = [('a',1),('b',1),('c',2),('d',3)] pathB = [('c',1),('d',3),('e',3),('f',4),] a = sc.parallelize(pathA) b = sc.parallelize(pathB) a.join(b).col
阅读全文
pyspark union、intersection、subtract、cartesian用法
摘要:union、intersection、subtract、cartesian rdd1 = sc.parallelize([1,2,4,5,2,3]) rdd2 = sc.parallelize([4,6,5,7,8,6]) rdd1.union(rdd2).collect(): 所有rdd1和rdd
阅读全文
pyspark基本使用
摘要:【Example】 from pysoark. sql import SparkSession def split_line(line): try: return line.split(b"\t") except:pass def map_partitions(partitions): for li
阅读全文
pyspark
摘要:# Example from pyspark.sql import SparkSession spark=SparkSession.builder.appName("boye").getOrCreate()#spark = SparkSession.builder.appName("test").m
阅读全文
pyspark——Rdd与DataFrame相互转换
摘要:Rdd转DataFrame from pyspark.sql.types import * from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession spark=SparkSession.build
阅读全文
hbase 安装与使用
摘要:安装 1.下载 wget http://mirrors.shu.edu.cn/apache/hbase/1.4.6/hbase-1.4.6-bin.tar.gz tar -zxvf hbase-1.4.6-bin.tar.gz 2.配置 hbase-site.xml 文件 <configuratio
阅读全文
《Hbase基本操作》
摘要:[root@slave1 local]#hbase shell #进入HBase客户端命令行 hbase(main):024:0> list [列出HBase的所有表] [创建表] # 创建表t1,有两个family name:f1,f2,且版本数均为2create 't1',{NAME => 'f
阅读全文
《hadoop 集群搭建、spark安装、Hbase安装、Hive安装、Kafka安装》
摘要:1 hadoop集群安装 https://blog.csdn.net/shshheyi/article/details/84893371 1.1 修改主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.28.131 master 19
阅读全文