摘要:
Pandas的apply函数用起来很方便,特别是与groupby、lambda结合使用时更简便。 1. 首先创建DataFrame数据: import pandas as pd import numpy as np df = pd.DataFrame({'name':['Jack','Alex',' 阅读全文
2020年3月17日
摘要:
1. 在使用pyinstaller打包代码成exe文件时,出现No module named 'Crypto.Math' 错误的原因应该是:现在名称换了。 解决方法是: pip uninstall crypto pip uninstall pycryptodome pip install pycry 阅读全文
2020年3月16日
摘要:
安装PyQt5的时候出现:ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。 1. 先说解决方案(加上 '--user'): pip install --user PyQt5 -i http 阅读全文
摘要:
pyspark创建RDD的方式主要有两种,一种是通过spark.sparkContext.textFile 或者 sparkContext.textFile读取生成RDD数据;另一种是通过spark.sparkContext.parallelize创建RDD数据。 1. 首先导入库和进行环境配置(使 阅读全文
2020年3月14日
摘要:
pyspark可以直接将DataFrame格式数据转成table,也可在程序中执行sql代码。 1. 首先导入库和环境,os.environ在系统中有多个python版本时需要设置 import os from pyspark import SparkContext, SparkConf from 阅读全文
摘要:
pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如,Input 阅读全文
摘要:
弹性分布式数据集(RDD)是一组不可变的JVM对象的分布集,可以用于执行高速运算,它是Apache Spark的核心。 在pyspark中获取和处理RDD数据集的方法如下: 1. 首先是导入库和环境配置(本测试在linux的pycharm上完成) import os from pyspark imp 阅读全文
摘要:
parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是: 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量; 压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间; 只读取需要的列,支持向量运算,能够获取更好的扫描性能。 那么我们怎 阅读全文
2020年3月5日
摘要:
python求时间差主要是用的datetime包,包括同一天情形下的时间差和不同天情形下的时间差。 from datetime import datetime, date 1. 同一天情形下的时间差(秒)seconds ,分钟由秒数除以60即可 #计算时间差的分钟数 # 同一天的时间差 time_1 阅读全文
2020年3月4日
摘要:
pandas的索引操作可以快速的完成多种功能。 import pandas as pd import numpy as np 1. 首先pandas创建DataFrame,创建DataFrame格式数据有多种方式,可以使用数组、列表、字典等; df_1 = pd.DataFrame([['Jack' 阅读全文