大数据定时处理解决方案【转】

转:https://blog.csdn.net/yeyiboy/java/article/details/96831743
大数据定时处理流程(结构化数据)
一、使用kattle工具或sqoop工具把数据导入hdfs
1、Kattle工具配置

复制hadoop服务中hdfs-site.xml hive-site.xml yarn-site.xml文件,并放入Kattle的C:\Users\Administrator\Desktop\pdi-ce-8.2.0.0-342\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30目录中

2、启动Kattle    Spoon.bat
3、创建转换
1)编辑表输入
2)编辑 Hadoop File Output
二、load数据至hive数仓
            eg:1、把load数据语句写入/home/shell_file/sql.txt文件

vim /home/shell_file/sql.txt

load data inpath "/user/Administrator/zhao.txt" overwrite into table bb

2、添加定时任务(指定hive的用户名、密码、执行文件)以达到定时导入目的(或使用Azkaban工具实现任务调度)

0 0 * * *  hive -n hive -p hive -f  /home/shell_file/sql.txt

#或下句使用spark-sql load数据

0 0 * * *  spark-sql -f  /home/shell_file/sql.txt

三、使用spark-sql查询数据,并写入mysql数据库
            eg:1、vim /home/shell_file/sparksession_mysql.py

from pyspark import SparkContext, SparkConf

from pyspark.sql import SQLContext

from pyspark.streaming import StreamingContext

#from pyspark.sql import HiveContext

spark = SparkSession.builder.appName("DataFrame").enableHiveSupport().getOrCreate()

url= "jdbc:mysql://127.0.0.1:3306/bigDataTest?                                                                      createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=UTF-8"

#url='jdbc:oracle:thin:@10.12.4.136:1521:dzjg'

tablename='SPARKSQL_TEST'

properties={"user": "root", "password": "root"}

df=spark.read.jdbc(url=url,table=tablename,properties=properties)

df.registerTempTable("test")

df2=spark.sql("select * from test")

df2=spark.sql("insert overwrite table test select xfsh,xfmc,sum(hsje),from_unixtime(unix_timestamp()) from osp_invoice_detail group by xfsh,xfmc")

sc.stop()

2、添加定时任务以达到定时导入目的(或使用Azkaban工具实现任务调度)

vim /etc/crontab

* * * * * /usr/hdp/3.0.0.0-1634/spark2/bin/spark-submit --master yarn --name spark01 /home/shell_file/sparksession_mysql.py

eg2: 使用spark-sql直接查询

spark-sql -f /home/shell_file/sql.txt     #指定文件查询

spark-sql -e “select * from test”  #直接使用sql查询

四、使用superset展示页面

posted @ 2020-04-20 10:43  yonomo  阅读(728)  评论(0编辑  收藏  举报