落日峡谷

Pandas：apply方法与lambda、groupby结合、apply多参数传递

摘要： Pandas的apply函数用起来很方便，特别是与groupby、lambda结合使用时更简便。 1. 首先创建DataFrame数据： import pandas as pd import numpy as np df = pd.DataFrame({'name':['Jack','Alex',' 阅读全文

posted @ 2020-03-17 20:27 落日峡谷阅读(12837) 评论(0) 推荐(1) 编辑

pyinstaller执行出现：No module named 'Crypto.Math' 和 WARNING: lib not found: tbb.dll dependency

摘要： 1. 在使用pyinstaller打包代码成exe文件时，出现No module named 'Crypto.Math' 错误的原因应该是：现在名称换了。解决方法是： pip uninstall crypto pip uninstall pycryptodome pip install pycry 阅读全文

posted @ 2020-03-17 14:46 落日峡谷阅读(2311) 评论(0) 推荐(0) 编辑

ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问 --- PyQt5

摘要：安装PyQt5的时候出现：ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。 1. 先说解决方案（加上 '--user'）： pip install --user PyQt5 -i http 阅读全文

posted @ 2020-03-16 19:55 落日峡谷阅读(4127) 评论(0) 推荐(0) 编辑

pyspark创建RDD数据、RDD转DataFrame以及保存

摘要： pyspark创建RDD的方式主要有两种，一种是通过spark.sparkContext.textFile 或者 sparkContext.textFile读取生成RDD数据；另一种是通过spark.sparkContext.parallelize创建RDD数据。 1. 首先导入库和进行环境配置（使阅读全文

posted @ 2020-03-16 16:47 落日峡谷阅读(8020) 评论(0) 推荐(0) 编辑

pyspark将DataFrame转成table以及操作sql语句

摘要： pyspark可以直接将DataFrame格式数据转成table，也可在程序中执行sql代码。 1. 首先导入库和环境，os.environ在系统中有多个python版本时需要设置 import os from pyspark import SparkContext, SparkConf from 阅读全文

posted @ 2020-03-14 20:33 落日峡谷阅读(5661) 评论(0) 推荐(0) 编辑

pyspark读取textfile形成DataFrame以及查询表的属性信息

摘要： pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法（在hive或者spark-sql命令行均可）：查询建表信息： show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如，Input 阅读全文

posted @ 2020-03-14 19:28 落日峡谷阅读(4781) 评论(0) 推荐(1) 编辑

pyspark获取和处理RDD数据

摘要：弹性分布式数据集（RDD）是一组不可变的JVM对象的分布集，可以用于执行高速运算，它是Apache Spark的核心。在pyspark中获取和处理RDD数据集的方法如下： 1. 首先是导入库和环境配置（本测试在linux的pycharm上完成） import os from pyspark imp 阅读全文

posted @ 2020-03-14 18:21 落日峡谷阅读(5173) 评论(0) 推荐(0) 编辑

pyspark读取parquet数据

摘要： parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。那么我们怎阅读全文

posted @ 2020-03-14 17:20 落日峡谷阅读(6892) 评论(0) 推荐(0) 编辑

python求时间差

摘要： python求时间差主要是用的datetime包，包括同一天情形下的时间差和不同天情形下的时间差。 from datetime import datetime, date 1. 同一天情形下的时间差（秒）seconds ，分钟由秒数除以60即可 #计算时间差的分钟数 # 同一天的时间差 time_1 阅读全文

posted @ 2020-03-05 10:31 落日峡谷阅读(30614) 评论(0) 推荐(0) 编辑

pandas索引操作之loc，iloc，ix等方法

摘要： pandas的索引操作可以快速的完成多种功能。 import pandas as pd import numpy as np 1. 首先pandas创建DataFrame，创建DataFrame格式数据有多种方式，可以使用数组、列表、字典等； df_1 = pd.DataFrame([['Jack' 阅读全文

posted @ 2020-03-04 20:38 落日峡谷阅读(1951) 评论(0) 推荐(0) 编辑

公告

导航