摘要:
示例: 在信贷数据中,征信认证是用户的属性之一,值域是:已认证、未认证。逾期也是属性之一,值域是:已逾期、未逾期。 要查看不同征信情况对逾期的影响。 计算方式1: 已认证占比=sum(已认证and已逾期)/sum(已逾期) 未认证占比=sum(未认证and已逾期)/sum(已逾期) 即在已逾期的范围 阅读全文
摘要:
大数据技术本质上解决4个核心问题:存储、计算、查询、挖掘。本文主要针对前三点经常出现的相关名词进行释义。 背景 大数据技术先驱Google发表了:《Google file system》《Google MapReduce》《Google BigTable》。Apache软件基金会根据这三本秘籍研究出 阅读全文
摘要:
https://blog.csdn.net/qq_19528953/article/details/78785818 一 介绍 对于数据处理来说,整个处理的流程如下图所示: 数据预处理——通常包括特征选择、维规约、规范化等方法。 数据挖掘——这部分的方法和技术非常多,在处理时主要根据自己的目的来选择 阅读全文
摘要:
所谓“机器学习”就是利用计算机将纷繁复杂的数据处理成有用的信息,这样就可以发掘出数据带来的意义以及隐藏在数据背后的规律。现如今,“机器学习”和“大数据”可以说是IT行业中最热点的两个词汇,而无论是“机器学习”还是“大数据”最终要解决的问题本质上是一样的,用最为直白的话来说就是用现有的数据去预测将来的 阅读全文
摘要:
https://www.cnblogs.com/nxld/p/6168380.html 本文,主要想简单介绍下数据挖掘中的算法,以及它包含的类型。然后,通过现实中触手可及的、活生生的案例,去诠释它的真实存在。 一般来说,数据挖掘的算法包含四种类型,即分类、预测、聚类、关联。前两种属于有监督学习,后两 阅读全文
摘要:
人工智能元年来临,大数据在这里充当什么角色?数据分析是什么定位?职业区分? https://blog.csdn.net/blueheart20/article/details/71036779 https://blog.csdn.net/zw0pi8g5c1x/article/details/807 阅读全文