瞎说大数据

简介

  何为大数据?大数据属于数据分析的范畴,所以要了解大数据,你就必须对数据分析有个了解,数据分析就是基于历史数据得出自己想要的能够辅助决策的结论而进行的过程,而大数据其实就数据变的更大,往往一台电脑存不下,分析起来也更难了,所以大数据它会有自己的一套分析理论和框架。

  大数据的特点:不寻求所有的结果正确,只要保证大多数结果近似合理,它基于特征进行分析的。

  这句话,你或许不理解,我举几个案例你就理解了。

案例

  1、高速抓逃费 - 私开道口

  讲解这个案例之前,先给你普及几个概念

  • CPC和ETC:上高速的时候,需要一个计费的东西,要么你在入口收费站领卡(这个卡就是CPC卡),要么你已经安装了ETC,走ETC通道,你也可以把这两类卡称之为 通行介质
  • 行程编号:就是你上高速的给你这段行程进行编号, 可以理解为就是 你从入口到出口 的行径给的唯一标识, 这个东西在入口时产生
  • 收费站和门架:收费站就是高速路 准入和放行的地方,也是进行高速费用计算的地方, 而门架就是 你行程途中经过的,用于记录你行驶到哪的框架
  • 数据来源:高速路一般会产生两部分数据,第一部分,就是收费站或者门架 和 你的计费设备(CPC或ETC)通信产生的计费数据,我们称为收费流水,第二部分,就是收费站或门架会对行驶的车辆进行拍照产生图像数据,我们称为图像流水

  私开道口怎么实现逃费的呢?就是在高速路私自开口子,绕开收费站上高速,以达到逃费的目的。

  刚才上面说到:大数据是基于特征进行分析,那私开道口的特征是啥?

  • 无入无出(中途上的,就不会经过入出收费站,由于无入所以肯定没领CPC卡,并且想逃费,如果装ETC,也可能会屏蔽掉,所以私开道口无论在收费站还在门架那,都不会记录收费流水,具体体现为没有通行编号
  • 有图像流水(虽然是中途上去的,但是门架还是对其进行拍照

  确定了特征后,那接下来就按照这个特征来,基于上面给出的数据,进行开发分析,所以我们基于每个小时的门架图像流水数据,按照车牌号相等,去找收费流水数据,如果这个小时找不到的,就可以认为这个小时是符合私开道口的特征。

  大数据的迭代优化过程:刚才说了大数据是基于特征进行分析,但是特征和实际数据存在偏离的现象,也就是你想的和实际数据会存在考虑不周的地方,就比如上面的分析过程,如果只是拿1小时的数据就认定为私开道口,那有点偏颇,因为一段高速行程往往跨了好几个小时,就有可能存在某个车是正常领CPC卡上来的,但是在这段路上的某个小时,经过的几个门架存在问题,这几个门架的拍照功能正常,但是和CPC卡通信的功能有问题,就会导致这个小时表现为有图像流水但是没有收费流水,针对这种情况,我们多扩展几个小时,比如连续6小时都出现有图像流水但是没有收费流水的,我才认为符合私开道口,你可以理解这个过程就在进行优化,通过 增加特征(连续6小时的特征)-排除异常情况(门架通信问题)的方式来让结果尽可能合理,伴随这个过程,数据量在减少,但结果越来越合理,所以大数据的开发过程,也是一个反复优化的过程。

  大数据分析的不足:我一直在强调反复优化的结果后更合理,注意合理这个词,而不是准确,怎么理解呢?就拿上面这个优化过程,取的连续6小时的这个特征,对这个数字6肯定不是绝对正确的数值,只能说是一个相对合理的数值,因为数字太低,就可能还存在门架通信问题,但是如果太高,就可能符合这个特征的数据量更少,即使是6小时,也会有些私开道口逃费抓不到的情况,比如一辆车某段行程只开了5小时,它就不满足连续6小时的特征,所以大数据分析只在保证,只要输出的结果就一定符合你的预期,但是并不能保证能找到所有的结果。

  2、公安抓嫖娼

  如果确实没上过高速,对于上面高速抓逃费的例子可能一知半解的,那我们接下来的这个例子或许能够更好的帮助你理解,但是通过上面的例子,大数据分析流程应该大概清楚了

  确定行为 -> 找特征 -> 明确数据源 -> 开发分析 -> 迭代优化 -> 辅助决策

  1. 确定行为 -> 抓嫖娼, 也就是你此次分析的目的
  2. 找特征 -> 昼伏夜出,晚上有交易
  3. 明确数据源 -> 出行数据(打车数据、街上摄像头人脸识别数据、酒店开房数据),交易数据(银联、支付宝、微信交易数据)
  4. 开发分析 -> 白天在睡觉,晚上才出来,体现为晚上打车或者摄像头有拍到或者开房,并在晚上10点以后有交易数据
  5. 迭代优化 -> 交易金额很有特色,呈现698,998
  6. 辅助决策 -> 当然上面这个最后的结果是不能直接给到公安作为直接抓人的证据,只能说这份结果嫌疑很大,警察用于辅助判断,提高警察办事效率

  3、就近找租房

  最后再给你举个更贴切个人的例子。

  1. 确定行为 -> 就近租房
  2. 找特征 -> 通勤时间控制在30分钟内(直线距离在3KM或者地图导航时间在30分钟)
  3. 明确数据源 -> 安居客网站租房数据、高德地图导航数据
  4. 开发分析 -> 合租的、导航步行30分钟或者搭地铁在30分钟近地铁、预算控制在2000元,价格从低到高排列
  5. 迭代优化 -> 排除低于当前小区租房均价30%以上的虚假房源,房间面积在15平以上
  6. 辅助决策:按照名单,去线下看房,最后确定租哪

总结

  大数据就是因为数据量大,个别异常数据不会影响整体结果合理性,你可以理解为它运用了概率论来解决问题的,通过保证正常数据足够大,进而盖过个别异常结果,并且大数据分析出来的结果用来辅助你决策的。当然大数据的大小也相对的,并不一定要到达一台电脑都存不下,只要有足量的正常数据即可。

  那你了解了大数据,对于你个人,怎么用呢?用之前,你自己需要明确两个事

  • 自己想要啥,自己有足够的经验对行为提取特征,对数据有一定的敏感性,进而对分析的结果有自己判断能力
  • 数据易取(当然有些数据是可以在网上获取,比如安居客的租房数据)

  今天写这篇文章,主要让大家明白什么是大数据,以及以后碰一些场景,明白是可以利用大数据提高效率了,大数据不单纯是一项技术,它跟业务是强相关的,也就是不同的行业,会有不同数据特征,所以这篇文章还有个目的就是集思广益,每个人有自己擅长的方面,对不同的数据有自己的见解,往往就是你这对数据的不同见解,存在可能对数据背后的商机进行挖掘,当然,技术层面你不用太多关注,比如开发分析环节、怎么获取网站数据,这个是我擅长的,你需要关注就是做到对行为的深入理解,并提取特征,并想好这个行为怎么为我所用

 

posted @ 2023-04-03 00:49  财经知识狂魔  阅读(33)  评论(0编辑  收藏  举报