大数据定时处理解决方案【转】
转:https://blog.csdn.net/yeyiboy/java/article/details/96831743
大数据定时处理流程(结构化数据)
一、使用kattle工具或sqoop工具把数据导入hdfs
1、Kattle工具配置
复制hadoop服务中hdfs-site.xml hive-site.xml yarn-site.xml文件,并放入Kattle的C:\Users\Administrator\Desktop\pdi-ce-8.2.0.0-342\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30目录中
2、启动Kattle Spoon.bat
3、创建转换
1)编辑表输入
2)编辑 Hadoop File Output
二、load数据至hive数仓
eg:1、把load数据语句写入/home/shell_file/sql.txt文件
vim /home/shell_file/sql.txt
load data inpath "/user/Administrator/zhao.txt" overwrite into table bb
2、添加定时任务(指定hive的用户名、密码、执行文件)以达到定时导入目的(或使用Azkaban工具实现任务调度)
0 0 * * * hive -n hive -p hive -f /home/shell_file/sql.txt
#或下句使用spark-sql load数据
0 0 * * * spark-sql -f /home/shell_file/sql.txt
三、使用spark-sql查询数据,并写入mysql数据库
eg:1、vim /home/shell_file/sparksession_mysql.py
from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext
from pyspark.streaming import StreamingContext
#from pyspark.sql import HiveContext
spark = SparkSession.builder.appName("DataFrame").enableHiveSupport().getOrCreate()
url= "jdbc:mysql://127.0.0.1:3306/bigDataTest? createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=UTF-8"
#url='jdbc:oracle:thin:@10.12.4.136:1521:dzjg'
tablename='SPARKSQL_TEST'
properties={"user": "root", "password": "root"}
df=spark.read.jdbc(url=url,table=tablename,properties=properties)
df.registerTempTable("test")
df2=spark.sql("select * from test")
df2=spark.sql("insert overwrite table test select xfsh,xfmc,sum(hsje),from_unixtime(unix_timestamp()) from osp_invoice_detail group by xfsh,xfmc")
sc.stop()
2、添加定时任务以达到定时导入目的(或使用Azkaban工具实现任务调度)
vim /etc/crontab
* * * * * /usr/hdp/3.0.0.0-1634/spark2/bin/spark-submit --master yarn --name spark01 /home/shell_file/sparksession_mysql.py
eg2: 使用spark-sql直接查询
spark-sql -f /home/shell_file/sql.txt #指定文件查询
spark-sql -e “select * from test” #直接使用sql查询
四、使用superset展示页面