摘要:
1.people.txtsoyo8, 35小周, 30小华, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射机制推断RDD模式 */import org.apache.spark.sql.catalyst.encoders.Expressio 阅读全文
摘要:
1.DataFrame与RDD的区别 RDD是分布式的 Java对象的集合 DataFrame是一种以RDD为基础的分布式数据集,也就是分布式的Row对象的集合(每个Row对象代表一行记录),提供了详细的结构信息,也就是我们经常说的模式(schema).简单理解就是类似表 2.Schema 是什么 阅读全文
摘要:
hadoop:hadoop启动:./sbin/start-dfs.shhadoop关闭:./sbin/stop-dfs.shbin文件用于在HDFS创建数据HDFS 中创建用户目录:./bin/hdfs dfs -mkdir -p /user/hadoop往input中放数据:./bin/hdfs 阅读全文
摘要:
vim ~/.bashrcexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 //JDK安装路径export HADOOP_HOME=/usr/local/hadoop //Hdoop 安装路径export HADOOP_COMMON_LIB_NAT 阅读全文