上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 15 下一页

2020年3月17日

摘要: Pandas的apply函数用起来很方便,特别是与groupby、lambda结合使用时更简便。 1. 首先创建DataFrame数据: import pandas as pd import numpy as np df = pd.DataFrame({'name':['Jack','Alex',' 阅读全文
posted @ 2020-03-17 20:27 落日峡谷 阅读(12837) 评论(0) 推荐(1) 编辑
摘要: 1. 在使用pyinstaller打包代码成exe文件时,出现No module named 'Crypto.Math' 错误的原因应该是:现在名称换了。 解决方法是: pip uninstall crypto pip uninstall pycryptodome pip install pycry 阅读全文
posted @ 2020-03-17 14:46 落日峡谷 阅读(2311) 评论(0) 推荐(0) 编辑

2020年3月16日

摘要: 安装PyQt5的时候出现:ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。 1. 先说解决方案(加上 '--user'): pip install --user PyQt5 -i http 阅读全文
posted @ 2020-03-16 19:55 落日峡谷 阅读(4127) 评论(0) 推荐(0) 编辑
摘要: pyspark创建RDD的方式主要有两种,一种是通过spark.sparkContext.textFile 或者 sparkContext.textFile读取生成RDD数据;另一种是通过spark.sparkContext.parallelize创建RDD数据。 1. 首先导入库和进行环境配置(使 阅读全文
posted @ 2020-03-16 16:47 落日峡谷 阅读(8020) 评论(0) 推荐(0) 编辑

2020年3月14日

摘要: pyspark可以直接将DataFrame格式数据转成table,也可在程序中执行sql代码。 1. 首先导入库和环境,os.environ在系统中有多个python版本时需要设置 import os from pyspark import SparkContext, SparkConf from 阅读全文
posted @ 2020-03-14 20:33 落日峡谷 阅读(5661) 评论(0) 推荐(0) 编辑
摘要: pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如,Input 阅读全文
posted @ 2020-03-14 19:28 落日峡谷 阅读(4781) 评论(0) 推荐(1) 编辑
摘要: 弹性分布式数据集(RDD)是一组不可变的JVM对象的分布集,可以用于执行高速运算,它是Apache Spark的核心。 在pyspark中获取和处理RDD数据集的方法如下: 1. 首先是导入库和环境配置(本测试在linux的pycharm上完成) import os from pyspark imp 阅读全文
posted @ 2020-03-14 18:21 落日峡谷 阅读(5173) 评论(0) 推荐(0) 编辑
摘要: parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是: 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量; 压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间; 只读取需要的列,支持向量运算,能够获取更好的扫描性能。 那么我们怎 阅读全文
posted @ 2020-03-14 17:20 落日峡谷 阅读(6892) 评论(0) 推荐(0) 编辑

2020年3月5日

摘要: python求时间差主要是用的datetime包,包括同一天情形下的时间差和不同天情形下的时间差。 from datetime import datetime, date 1. 同一天情形下的时间差(秒)seconds ,分钟由秒数除以60即可 #计算时间差的分钟数 # 同一天的时间差 time_1 阅读全文
posted @ 2020-03-05 10:31 落日峡谷 阅读(30614) 评论(0) 推荐(0) 编辑

2020年3月4日

摘要: pandas的索引操作可以快速的完成多种功能。 import pandas as pd import numpy as np 1. 首先pandas创建DataFrame,创建DataFrame格式数据有多种方式,可以使用数组、列表、字典等; df_1 = pd.DataFrame([['Jack' 阅读全文
posted @ 2020-03-04 20:38 落日峡谷 阅读(1951) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 15 下一页

导航