摘要:
数据仓库是数据的仓库,数据是从操作型数据库系统中获取,经过集成处理、按照合适的粒度进行聚合而成的数据的集合。 构建数据仓库,要从数据模型、数据集成、粒度设计和分区设计这四个方面着手,迭代式开发。 一,数据模型 在设计数据仓库之前,首先要了解操作型数据库的数据模型,数据模型分为三个层次: ERD(实体 阅读全文
摘要:
数据仓库是伴随着信息技术和决策支持系统(DSS,Decision Support System)的发展而产生的,利用历史的操作数据进行管理和决策。 数据仓库是一个面向主题的、集成的、非易失的、随着时间变化的,用于支持管理人员决策的数据集合,数据仓库包含粒度化的企业数据,在不同的粒度级别上对数据进行聚 阅读全文
摘要:
K最近邻(kNN,k-NearestNeighbor)算法是一种监督式的分类方法,但是,它并不存在单独的训练过程,在分类方法中属于惰性学习法,也就是说,当给定一个训练数据集时,惰性学习法简单地存储或稍加处理,并一直等待,直到给定一个检验数据集时,才开始构造模型,以便根据已存储的训练数据集的相似性对检 阅读全文
摘要:
变量之间存在着相关关系,比如,人的身高和体重之间存在着关系,一般来说,人高一些,体重要重一些,身高和体重之间存在的是不确定性的相关关系。回归分析是研究相关关系的一种数学工具,它能帮助我们从一个变量的取值区估计另一个变量的取值。 OLS(最小二乘法)主要用于线性回归的参数估计,它的思路很简单,就是求一 阅读全文
摘要:
散点图用于描述两个连续性变量间的关系,三个变量之间的关系可以通过3D图形或气泡来展示,多个变量之间的两两关系可以通过散点图矩阵来展示。 一,添加了最佳拟合曲线的散点图 使用基础函数plot(x,y)来绘制散点图,其中x和y是数值型向量,代表着图形中的点(x,y) abline()函数用于添加最佳拟合 阅读全文
摘要:
Scipy中计算距离的模块是scipy.spatial.distance,最常用的方法是计算距离矩阵,换句话说,从存储在矩形数组中的观测向量集合中进行距离矩阵的计算。 一,两两距离 在n维空间中的观测值,计算两两之间的距离。距离值越大,相关度越小。 scipy.spatial.distance.pd 阅读全文
摘要:
小仙女只喝露珠,不吃饭,媛的2018,奋斗和生活两不误,👍👍👍, 精神胜利法式年度报告 最终成绩:及格 详细指标: 完成了每个月读书的小指标的80%(杂七杂八的书全部完成目标,技术书籍阅读进度一言难尽。。。) 每年拿到两个证书小目标完成 80%(虽然大都靠运气飘过,还拿了一个获奖证书来凑数,但 阅读全文
摘要:
包(Package)是实现特定功能的、预先写好的代码库(library),通俗地说,包是含有函数、数据等的功能模块。R拥有大量的软件包,许多包都是由某一领域的专家编写的,但并不是所有的包都有很高的质量。在使用包之前,最好到社区中了解其他网友的反馈。R预先安装了一系列的基础包,包括base、datas 阅读全文
摘要:
模块是把程序代码和数据封装的Python文件,也就是说,每一个以扩展名py结尾的Python源代码文件都是一个模块。每一个模块文件就是一个独立的命名空间,用于封装顶层变量名;在一个模块文件的顶层定义的所有的变量名(函数名也是一个变量名),称作模块的属性。导入模块给予了对模块的全局作用域中的变量名的读 阅读全文
摘要:
函数的参数是参数暴露给外部的接口,向函数传递参数,可以控制函数的流程,函数可以0个、1个或多个参数;在Python中向函数传参,使用的是赋值方式。 一,传递参数 参数是通过赋值来传递的,传递参数的特点是: 参数的传递是通过自动把对象赋值给函数的本地变量名来实现的, 在函数内部的变量名的赋值不会影响调 阅读全文
摘要:
函数是把一些语句集合在一起的程序结构,用于把复杂的流程细分成不同的组件,能够减少代码的冗余、代码的复用和修改代码的代价。 函数可以0个、1个或多个参数,向函数传递参数,可以控制函数的流程。函数还可以返回代码执行的结果,从技术上讲,任何函数都要返回结果,一个没有返回值的函数会自动返回none对象。如果 阅读全文
摘要:
Python中的迭代是指按照元素的顺序逐个调用的过程,迭代概念包括:迭代协议、可迭代对象和迭代器三个概念。 迭代协议是指有__next__()函数的对象会前进到下一个结果,而到达系列的末尾时,则会引发StopIteration异常。为了支持迭代协议,Python内置了两个函数:iter()和next 阅读全文
摘要:
Python的变量不用声明,赋值之后就可以直接使用,类型是在运行过程中自动确定的,这就是动态类型模型。该模型把变量和对象设计成两个不同的实体,对象是存储数据的地方,对象的类型是由初始值自动决定的,而变量仅仅是对象的引用。变量是通用的,同一个变量名可以引用任何类型的对象。 一,变量、对象和引用 动态类 阅读全文
摘要:
前记:这是我老婆写的一篇文章,结合了她当前的分析工作和物联网,介绍了物联网环境下数据分析的应用。 物联网概论及国内外研究现状 “物联网概念”是在“互联网概念”的基础上,将其用户端延伸和扩展到任何物品与物品之间,进行信息交换和通信的一种网络概念。 物联网(Internet of Things),国内外 阅读全文
摘要:
算术操作符用于对数值类型进行操作, 一,算术操作符 + :加 - :减 * :乘 ** :幂乘,例如,a**b,是指a的b次方 / :除,在Python3.0中,是真除法,无论任何类型都会保持小数部分 // :Floor除法,省略掉结果的小数部分 % :求模,求余数 二,数值类型概述 Python的 阅读全文
摘要:
致敬那些漂泊在外的务工者,你们是一群有梦想的人! 1 现状 本人沪漂一族,有次坐高铁去杭州,由于没有买到有座位的车票,想着路途不远,就买了站票。后来站累了,我发现一节特别的车厢有很多空的座位,看起来很豪华,很舒服的样子,我没多想,就径直坐了上去。坐了不一会儿,来了位美女乘务员查票,把我赶了出去,原来 阅读全文
摘要:
前记:这是我老婆随手写的一篇文章,结合了她当前的分析工作和云计算,介绍了云计算对大数据分析的助力。 在互联网后时代,数据分析已经成为企业保持竞争力的必要方法。企业在成长和发展的过程中积累了海量的数据,这些历史数据不管是通过纸质媒介,还是通过硬盘记录下来,都是企业宝贵的数据资产。对数据进行数字化处理, 阅读全文
摘要:
PowerBI的数据模型是表格模型,只能基于单个列创建关系,不支持基于多列的关系。但是,可以通过把相关的多个列组合成一个计算列,以它作为主键来创建关系。在数据模型中创建的关系,称作物理关系,物理关系会存储到数据模型中,虚拟关系只存在于DAX代码中,相比虚拟关系,利用物理关系的查询性能会更高。 一,使 阅读全文
摘要:
相关分析是数据分析的一个基本方法,可以用于发现不同变量之间的关联性,关联是指数据之间变化的相似性,这可以通过相关系数来描述。发现相关性可以帮助你预测未来,而发现因果关系意味着你可以改变世界。 一,协方差和相关系数 如果随机变量X和Y是相互独立的,那么协方差 Cov(X,Y) = E{ [X-E(X) 阅读全文
摘要:
使用geom_bar()函数绘制条形图,条形图的高度通常表示两种情况之一:每组中的数据的个数,或数据框中列的值,高度表示的含义是由geom_bar()函数的参数stat决定的,stat在geom_bar()函数中有两个有效值:count和identity。默认情况下,stat="count",这意味 阅读全文