随笔分类 -  pyspark

pyspark学习和使用遇到的坑
Exception: Randomness of hash of string should be disabled via PYTHONHASHSEED
摘要:pyspark提交任务报错: Exception: Randomness of hash of string should be disabled via PYTHONHASHSEED 解决方案: 1. os.environ['PYTHONHASHSEED'] = "123" —— 失败,该方案改动 阅读全文

posted @ 2020-09-12 09:42 落日峡谷 阅读(428) 评论(0) 推荐(0) 编辑

pyspark:'PipelinedRDD' object does not support indexing、 Initial job has not accepted any resources、IOException not a file: hdfs:// XXXX java.sql、Failed to replace a bad datanode on the existing
摘要:最近使用Pyspark的时候,遇到一些新的问题,希望记录下来,解决的我会补充。 1. WARN DomainSocketFactory: The short-circuit local reads feature cannot be used 2. pyspark TypeError: 'Pipel 阅读全文

posted @ 2020-03-28 19:09 落日峡谷 阅读(1278) 评论(0) 推荐(0) 编辑

pyspark创建RDD数据、RDD转DataFrame以及保存
摘要:pyspark创建RDD的方式主要有两种,一种是通过spark.sparkContext.textFile 或者 sparkContext.textFile读取生成RDD数据;另一种是通过spark.sparkContext.parallelize创建RDD数据。 1. 首先导入库和进行环境配置(使 阅读全文

posted @ 2020-03-16 16:47 落日峡谷 阅读(8095) 评论(0) 推荐(0) 编辑

pyspark将DataFrame转成table以及操作sql语句
摘要:pyspark可以直接将DataFrame格式数据转成table,也可在程序中执行sql代码。 1. 首先导入库和环境,os.environ在系统中有多个python版本时需要设置 import os from pyspark import SparkContext, SparkConf from 阅读全文

posted @ 2020-03-14 20:33 落日峡谷 阅读(5747) 评论(0) 推荐(0) 编辑

pyspark读取textfile形成DataFrame以及查询表的属性信息
摘要:pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如,Input 阅读全文

posted @ 2020-03-14 19:28 落日峡谷 阅读(4826) 评论(0) 推荐(1) 编辑

pyspark获取和处理RDD数据
摘要:弹性分布式数据集(RDD)是一组不可变的JVM对象的分布集,可以用于执行高速运算,它是Apache Spark的核心。 在pyspark中获取和处理RDD数据集的方法如下: 1. 首先是导入库和环境配置(本测试在linux的pycharm上完成) import os from pyspark imp 阅读全文

posted @ 2020-03-14 18:21 落日峡谷 阅读(5224) 评论(0) 推荐(0) 编辑

pyspark读取parquet数据
摘要:parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是: 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量; 压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间; 只读取需要的列,支持向量运算,能够获取更好的扫描性能。 那么我们怎 阅读全文

posted @ 2020-03-14 17:20 落日峡谷 阅读(7059) 评论(0) 推荐(0) 编辑

spark-submit提交任务到集群,分发虚拟环境和第三方包
摘要:spark-submit提交任务的参数很多: Usage: spark-submit [options] <app jar | python file> [app arguments] Usage: spark-submit --kill [submission ID] --master [spar 阅读全文

posted @ 2020-01-15 22:44 落日峡谷 阅读(4825) 评论(2) 推荐(0) 编辑

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found
摘要:最近执行pyspark时,直接读取hive里面的数据,经常遇到几个问题: 1. java.io.IOException: Not a file —— 然而事实上文件是存在的,是 hdfs 的默认路径出了错,需要配置 --files 和 --conf。 2. pyspark.sql.utils.Ana 阅读全文

posted @ 2019-12-17 22:42 落日峡谷 阅读(5739) 评论(1) 推荐(0) 编辑

spark-submit之使用pyspark
摘要:在linux下,执行pyspark代码 —— 实测有效:但是并不是所有的包都能够成功,一些很复杂的包或者对C依赖很深的包例如 numpy, pandas, scipy等,无法通过本方法实现,实现可以参考https://www.cnblogs.com/qi-yuan-008/p/12199152.ht 阅读全文

posted @ 2019-11-17 20:06 落日峡谷 阅读(7472) 评论(0) 推荐(0) 编辑

Pyspark读取csv文件
摘要:#_*_coding:utf-8_*_ # spark读取csv文件 #指定schema: schema = StructType([ # true代表不为null StructField("column_1", StringType(), True), # nullable=True, this 阅读全文

posted @ 2019-10-31 15:30 落日峡谷 阅读(12231) 评论(2) 推荐(1) 编辑

Pyspark:AssertionError: dataType should be DataType
摘要:1. schema参数,AssertionError: dataType should be DataType # AssertionError: dataType should be DataType schema = StructType([ # true代表不为空 StructField("c 阅读全文

posted @ 2019-10-31 11:46 落日峡谷 阅读(1978) 评论(0) 推荐(0) 编辑

Pyspark显示中文、ImportError: cannot import name 'Col' from 'pyspark.sql.functions'、Exception: Python in worker has different version、pip is configured with locations that require TLS/SSL
摘要:1. pyspark读csv文件后无法显示中文 #pyspark读取csv格式时,不能显示中文 df = spark.read.csv(r"hdfs://mymaster:8020/user/root/data_spark.csv", schema=schema) #解决方法,加入encoding= 阅读全文

posted @ 2019-10-30 21:37 落日峡谷 阅读(2163) 评论(0) 推荐(0) 编辑

导航

点击右上角即可分享
微信分享提示