2019年5月13日

Spark芝加哥犯罪数据分析与可视化

摘要: 1、明确分析目标:多年来犯罪如何变化?是否有可能预测犯罪将在何时何地发生?在这段时间内,这个城市的哪些地区已经发生了变化? 2、针对以上目标,主要根据:犯罪时间 Date、犯罪类型 Primary Type 、逮捕情况 Arrest、犯罪地点 location_description(所属社区 co 阅读全文

posted @ 2019-05-13 13:04 ColourfulDay 阅读(1027) 评论(0) 推荐(0) 编辑

Log Analysis - DataFrame

摘要: 一、获取DataFrame型的日志数据 1、读入数据:使用 SparkSession 以文本形式读入日志,数据类型:string 2、抽取字段:pyspark.sql.functions 中 regexp_extract() 直接从文本抽取所需字段,cast() 对字段定义数据类型, alias() 阅读全文

posted @ 2019-05-13 11:40 ColourfulDay 阅读(416) 评论(0) 推荐(0) 编辑

2019年5月12日

Log Analysis

摘要: 日志(log) 1、日志概念:以标准化的格式做的记录。 2、日志的通用格式:"%h %l %u %t \"%r\" %>s %b" 如:127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2 阅读全文

posted @ 2019-05-12 16:50 ColourfulDay 阅读(411) 评论(0) 推荐(0) 编辑

2019年5月8日

python数据结构——映射

摘要: 一、映射概念 数据结构:以某种方式组合起来的数据元素的集合。 映射:以键值对方式组合起来的数据元素的集合。 二、映射特点 值存储在键内,键值一一对应。 键可以是数、字符串或元组。 键不可修改不可重复,值可以重复。 三、python内置映射——dict 字典定义 形如:{key1:value1,key 阅读全文

posted @ 2019-05-08 17:12 ColourfulDay 阅读(3972) 评论(0) 推荐(0) 编辑

Python数据结构——序列

摘要: 一、序列概念 数据结构:以某种方式组合起来的数据元素的集合。 序列:以编号方式组合起来的数据元素的集合。 二、序列特点以及通用操作 通用内置函数:len返回序列内元素的个数,min和max分别返回序列内元素的最大值和最小值 三、python内置序列1——list 列表定义 形如:[a,b,c,d], 阅读全文

posted @ 2019-05-08 16:19 ColourfulDay 阅读(943) 评论(0) 推荐(0) 编辑

导航