大数据基础---道路拥堵预测项目
一、项目简介
这是一个道路拥堵情况分析预测项目。
它利用Kafka提供数据,Redis存储结果,然后用逻辑回归进行模型训练,最后根据训练的模型预测道路未来是否拥堵。
二、项目结构
├─.idea
│ └─codeStyles
├─data
└─src
└─main
└─scala
└─vip
└─shuai7boy
├─trafficStreaming <!--ETL数据清洗-->
├─train <!--模型训练-->
└─util <!--工具类-->
三、数据源
文本文件每行的数据源格式如下:
'310999003001', '3109990030010220140820141230292','00000000','','2014-08-20 14:09:35','0',255,'SN', 0.00,'4','','310999','310999003001','02','','','2','','','2014-08-20 14:12:30','2014-08-20 14:16:13',0,0,'2014-08-21 18:50:05','','',' '
存储介质:
文本文件,Kafka,Redis,HDFS。
四、数据转换流程
1、通过从文本文件读取数据源,加载到Kafka主题
2、利用SparkStreaming从Kafka读取数据,将数据映射为:卡口号,(一分钟内汽车的速度和,车辆数) ,然后存入Redis。
3、从Redis取数据用于逻辑回归(LBFGS用于梯度下降)训练,训练出最近5个小时内,每三秒进行一次分类的模型。最后将模型存入HDFS,并把HDFS路径存入Redis。
4、从Redis读取路径,根据路径去HDFS找到模型文件,读取模型文件进行道路预测。
本文来自博客园,作者:数据驱动,转载请注明原文链接:https://www.cnblogs.com/shun7man/p/12914052.html