pyspark - 随笔分类 - 落日峡谷

Exception： Randomness of hash of string should be disabled via PYTHONHASHSEED

摘要：pyspark提交任务报错： Exception： Randomness of hash of string should be disabled via PYTHONHASHSEED 解决方案： 1. os.environ['PYTHONHASHSEED'] = "123" —— 失败，该方案改动阅读全文

posted @ 2020-09-12 09:42 落日峡谷阅读(428) 评论(0) 推荐(0) 编辑

pyspark：'PipelinedRDD' object does not support indexing、 Initial job has not accepted any resources、IOException not a file: hdfs:// XXXX java.sql、Failed to replace a bad datanode on the existing

摘要：最近使用Pyspark的时候，遇到一些新的问题，希望记录下来，解决的我会补充。 1. WARN DomainSocketFactory: The short-circuit local reads feature cannot be used 2. pyspark TypeError: 'Pipel 阅读全文

posted @ 2020-03-28 19:09 落日峡谷阅读(1278) 评论(0) 推荐(0) 编辑

pyspark创建RDD数据、RDD转DataFrame以及保存

摘要：pyspark创建RDD的方式主要有两种，一种是通过spark.sparkContext.textFile 或者 sparkContext.textFile读取生成RDD数据；另一种是通过spark.sparkContext.parallelize创建RDD数据。 1. 首先导入库和进行环境配置（使阅读全文

posted @ 2020-03-16 16:47 落日峡谷阅读(8095) 评论(0) 推荐(0) 编辑

pyspark将DataFrame转成table以及操作sql语句

摘要：pyspark可以直接将DataFrame格式数据转成table，也可在程序中执行sql代码。 1. 首先导入库和环境，os.environ在系统中有多个python版本时需要设置 import os from pyspark import SparkContext, SparkConf from 阅读全文

posted @ 2020-03-14 20:33 落日峡谷阅读(5747) 评论(0) 推荐(0) 编辑

pyspark读取textfile形成DataFrame以及查询表的属性信息

摘要：pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法（在hive或者spark-sql命令行均可）：查询建表信息： show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如，Input 阅读全文

posted @ 2020-03-14 19:28 落日峡谷阅读(4826) 评论(0) 推荐(1) 编辑

pyspark获取和处理RDD数据

摘要：弹性分布式数据集（RDD）是一组不可变的JVM对象的分布集，可以用于执行高速运算，它是Apache Spark的核心。在pyspark中获取和处理RDD数据集的方法如下： 1. 首先是导入库和环境配置（本测试在linux的pycharm上完成） import os from pyspark imp 阅读全文

posted @ 2020-03-14 18:21 落日峡谷阅读(5224) 评论(0) 推荐(0) 编辑

pyspark读取parquet数据

摘要：parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。那么我们怎阅读全文

posted @ 2020-03-14 17:20 落日峡谷阅读(7059) 评论(0) 推荐(0) 编辑

spark-submit提交任务到集群，分发虚拟环境和第三方包

摘要：spark-submit提交任务的参数很多： Usage: spark-submit [options] <app jar | python file> [app arguments] Usage: spark-submit --kill [submission ID] --master [spar 阅读全文

posted @ 2020-01-15 22:44 落日峡谷阅读(4825) 评论(2) 推荐(0) 编辑

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found

摘要：最近执行pyspark时，直接读取hive里面的数据，经常遇到几个问题： 1. java.io.IOException: Not a file —— 然而事实上文件是存在的，是 hdfs 的默认路径出了错，需要配置 --files 和 --conf。 2. pyspark.sql.utils.Ana 阅读全文

posted @ 2019-12-17 22:42 落日峡谷阅读(5739) 评论(1) 推荐(0) 编辑

spark-submit之使用pyspark

摘要：在linux下，执行pyspark代码 —— 实测有效：但是并不是所有的包都能够成功，一些很复杂的包或者对C依赖很深的包例如 numpy, pandas, scipy等，无法通过本方法实现，实现可以参考https://www.cnblogs.com/qi-yuan-008/p/12199152.ht 阅读全文

posted @ 2019-11-17 20:06 落日峡谷阅读(7472) 评论(0) 推荐(0) 编辑

Pyspark读取csv文件

摘要：#_*_coding:utf-8_*_ # spark读取csv文件 #指定schema： schema = StructType([ # true代表不为null StructField("column_1", StringType(), True), # nullable=True, this 阅读全文

posted @ 2019-10-31 15:30 落日峡谷阅读(12231) 评论(2) 推荐(1) 编辑

Pyspark：AssertionError: dataType should be DataType

摘要：1. schema参数，AssertionError: dataType should be DataType # AssertionError: dataType should be DataType schema = StructType([ # true代表不为空 StructField("c 阅读全文

posted @ 2019-10-31 11:46 落日峡谷阅读(1978) 评论(0) 推荐(0) 编辑

Pyspark显示中文、ImportError: cannot import name 'Col' from 'pyspark.sql.functions'、Exception: Python in worker has different version、pip is configured with locations that require TLS/SSL

摘要：1. pyspark读csv文件后无法显示中文 #pyspark读取csv格式时，不能显示中文 df = spark.read.csv(r"hdfs://mymaster:8020/user/root/data_spark.csv", schema=schema) #解决方法，加入encoding= 阅读全文

posted @ 2019-10-30 21:37 落日峡谷阅读(2163) 评论(0) 推荐(0) 编辑

落日峡谷

随笔分类 - pyspark