大数据定时处理解决方案【转】

转：https://blog.csdn.net/yeyiboy/java/article/details/96831743
大数据定时处理流程（结构化数据）
一、使用kattle工具或sqoop工具把数据导入hdfs
1、Kattle工具配置

复制hadoop服务中hdfs-site.xml hive-site.xml yarn-site.xml文件，并放入Kattle的C:\Users\Administrator\Desktop\pdi-ce-8.2.0.0-342\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30目录中

2、启动Kattle Spoon.bat
3、创建转换
1）编辑表输入
2）编辑 Hadoop File Output
二、load数据至hive数仓
eg：1、把load数据语句写入/home/shell_file/sql.txt文件

vim /home/shell_file/sql.txt

load data inpath "/user/Administrator/zhao.txt" overwrite into table bb

2、添加定时任务（指定hive的用户名、密码、执行文件）以达到定时导入目的（或使用Azkaban工具实现任务调度）

0 0 * * * hive -n hive -p hive -f /home/shell_file/sql.txt

#或下句使用spark-sql load数据

0 0 * * * spark-sql -f /home/shell_file/sql.txt

三、使用spark-sql查询数据，并写入mysql数据库
eg:1、vim /home/shell_file/sparksession_mysql.py

from pyspark import SparkContext, SparkConf

from pyspark.sql import SQLContext

from pyspark.streaming import StreamingContext

#from pyspark.sql import HiveContext

spark = SparkSession.builder.appName("DataFrame").enableHiveSupport().getOrCreate()

url= "jdbc:mysql://127.0.0.1:3306/bigDataTest? createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=UTF-8"

#url='jdbc:oracle:thin:@10.12.4.136:1521:dzjg'

tablename='SPARKSQL_TEST'

properties={"user": "root", "password": "root"}

df=spark.read.jdbc(url=url,table=tablename,properties=properties)

df.registerTempTable("test")

df2=spark.sql("select * from test")

df2=spark.sql("insert overwrite table test select xfsh,xfmc,sum(hsje),from_unixtime(unix_timestamp()) from osp_invoice_detail group by xfsh,xfmc")

sc.stop()

2、添加定时任务以达到定时导入目的（或使用Azkaban工具实现任务调度）

vim /etc/crontab

* * * * * /usr/hdp/3.0.0.0-1634/spark2/bin/spark-submit --master yarn --name spark01 /home/shell_file/sparksession_mysql.py

eg2: 使用spark-sql直接查询

spark-sql -f /home/shell_file/sql.txt #指定文件查询

spark-sql -e “select * from test” #直接使用sql查询

四、使用superset展示页面

posted @ 2020-04-20 10:43 yonomo 阅读(728) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

西陌

生活点滴

大数据定时处理解决方案【转】

公告