2021年4月19日

摘要：导入数据 1 pd.read_csv(filename,header=None,names=['a','b','c','d'],nrows=10) #从CSV文件导入数据 2 pd.read_table(filename,sep='\s+',nrows=1) #正则表达式分割符 3 pd.read_ 阅读全文

posted @ 2021-04-19 22:08 boye169 阅读(87) 评论(0) 推荐(0) 编辑

linux下配置java环境变量

摘要：下载 https://www.oracle.com/java/technologies/downloads/ 方式一：设置全局环境变量 su - root #切换root用户 vi /etc/profile 在最后面加入 export JAVA_HOME=/usr/java/jdk1.7.0_45 阅读全文

posted @ 2021-04-19 22:00 boye169 阅读(475) 评论(0) 推荐(0) 编辑

Spark SQL

摘要： 1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark 阅读全文

posted @ 2021-04-19 21:52 boye169 阅读(72) 评论(0) 推荐(0) 编辑

公告