2019年5月13日

Spark芝加哥犯罪数据分析与可视化

摘要: 1、明确分析目标:多年来犯罪如何变化?是否有可能预测犯罪将在何时何地发生?在这段时间内,这个城市的哪些地区已经发生了变化? 2、针对以上目标,主要根据:犯罪时间 Date、犯罪类型 Primary Type 、逮捕情况 Arrest、犯罪地点 location_description(所属社区 co 阅读全文

posted @ 2019-05-13 13:04 ColourfulDay 阅读(1005) 评论(0) 推荐(0) 编辑

Log Analysis - DataFrame

摘要: 一、获取DataFrame型的日志数据 1、读入数据:使用 SparkSession 以文本形式读入日志,数据类型:string 2、抽取字段:pyspark.sql.functions 中 regexp_extract() 直接从文本抽取所需字段,cast() 对字段定义数据类型, alias() 阅读全文

posted @ 2019-05-13 11:40 ColourfulDay 阅读(413) 评论(0) 推荐(0) 编辑

导航