摘要:
在数据分析中,整理数据的本质可以归纳为:对数据进行分割(Split),然后应用(Apply)某些处理函数,最后将结果重新组合(Combine)成所需的格式返回,简单描述为:Split - Apply - Combine,各个步骤的作用是: Split:把要处理的数据分割成小片断,常用的函数是spli 阅读全文
摘要:
前几天,翻阅朋友圈,无意间看到“师傅”晒的女儿照片,竟不敢相信,之前那个襁褓中的小娃娃,俨然长大成一个大孩子了,能上小学了。回想5年前,我初进公司,第一份工作是师傅交接的,三个月之后,她喜得一女。时间如白驹过隙,就那么一瞬间,我已经毕业5年之久了。时光流逝,不舍昼夜,个人的奋斗,在历史的长河中,太微 阅读全文
摘要:
Basic包是R语言预装的开发包,包含了常用的数据处理函数,可以对数据进行简单地清理和转换,也可以在使用其他转换函数之前,对数据进行预处理,必须熟练掌握常用的数据处理函数。 一,合并向量 函数append()用于修改合并向量,可以把两个向量合并为一个: append(x, values, after 阅读全文
摘要:
ggplot2图形系统的核心理念是把绘图与数据分离,把数据相关的绘图与数据无关的绘图分离,按图层作图。ggplot2可以把绘图拆分成多个图层,且能够按照顺序创建多重图形。 使用ggplot2包创建图形时,每个图形都是由函数ggplot()创建的,提供绘图的数据和映射: 数据(data):数据框对象 阅读全文
摘要:
SQL Server 扩展事件(Extended Event)是用于服务器的常规事件处理系统,是追踪SQL Server系统运行状态的神器,同时也是一个日志记录工具,扩展事件完全可以取代SQL追踪(SQL Trace),扩展事件的设计功能: 由于扩展事件引擎不识别事件,因此,引擎可以将任何事件绑定到 阅读全文
摘要:
列表(List)是R中最复杂的数据类型,一般来说,列表是数据对象的有序集合,但是,列表的各个元素(item)的数据类型可以不同,每个元素的长度可以不同,是R中最灵活的数据类型。列表项可以是列表类型,因此,列表被认为是递归变量,与之相对,向量,数组,矩阵,数据框被认为是原子变量。 一,创建列表 列表由 阅读全文
摘要:
数据结构用于存储数据,不同的数据结构对应不同的操作方法,对应不同的分析目的,应选择合适的数据结构。在处理数据时,为了便于检查数据对象,可以通过函数attributes(x)来查看数据对象的属性,str(x)函数用于查看R对象的内部结构,通过print(x)函数,显示数据对象存储的内容,该函数把数据打 阅读全文
摘要:
准备数据是数据分析的第一步,由数据构成集合,我们称作数据集,数据集的结构是行列式的,行表示观测,列表示变量。把数据读入到R中,转换为合适的数据结构,能够提高数据分析的效率。在数据分析中,常用的存储数据的结构有标量、向量、因子和数据框,另外,还有矩阵和列表,多样化的数据结构赋予了R灵活处理数据的能力, 阅读全文
摘要:
在实际分析数据之前,必须对数据进行清理和转化,使数据符合相应的格式,提高数据的质量。数据处理通常包括增加新的变量、处理缺失值、类型转换、数据排序、数据集的合并和获取子集等。 一,增加新的变量 通常需要根据数据框中的现有列,按照特定的公式、业务逻辑,向数据框中新增变量,常用的操作符是: 算术运算符是: 阅读全文
摘要:
R是专门用于数据分析和统计的脚本语言,广泛应用在每一个需要统计和数据分析的领域。使用R做数据建模、数据统计和分析是一个发现未知和惊喜的旅程,前提,你必须迈出第一步,去学习R语言。R是一种解释型语言,这意味着代码在运行之前不需要编译,在学习R语言时,首先需要安装R,访问网站 https://www.r 阅读全文
摘要:
在master数据库中,SQL Server提供系统扩展的存储过程,其中有一些存储过程的命名以xp_开头,用于处理操作系统的文件。 一,判断文件是否存在 存储过程sys.xp_fileexist 用于判断文件是否存在,参数是文件(file)的路径或目录的路径: exec master.sys.xp_ 阅读全文
摘要:
在关系型数据库中,表与表之间存在引用关系,也就是说,数据列C1引用其他表的数据列C2中存在的值,引用关系通过外键(Foreign Key )约束实现。如果表(TableA)中的列C1被其他表引用,那么,我们把表(TableA)称作参考表,或引用表(Referenced Table),该列C1是其他表 阅读全文
摘要:
一般来说,数据排序有两种方式:使用Sort组件,使用TSQL命令Order by。使用Sort组件排序,对SSIS来说,是一种阻塞性的操作,这意味着,SSIS组件必须等到所有的数据都加载到内存之后,才能按照特定的字段对数据执行排序操作。然而,如果使用TSQL命令的Order by子句,在关系引擎中执 阅读全文
摘要:
在SQL Server中,创建数据表,需要为表设置合适的属性和约束,例如,自增列,非空,主键等,以满足业务的需求,一般来说,数据表存储的实体都应该唯一标识,使用ID列或GUID列来充当候选主键是可以的,相应地,数据表的列(Column)有两个特殊的属性: RowGUIDCol:用于标识UniqueI 阅读全文
摘要:
常用的转换函数是 cast 和 convert,用于把表达式得出的值的类型转换成另一个数据类型,如果转换失败,该函数抛出错误,导致整个事务回滚。在SQL Server 2012版本中,新增两个容错的转换函数:try_cast 和 try_convert,如果转换操作失败,该函数返回null,不会导致 阅读全文
摘要:
树形层次结构(Hierarchy)经常出现在有结构的数据中,T-SQL新增数据类型HierarchyID, 其长度可变,用于存储层次结构中的路径。HierarchyID表示的层次结构是树形的,由应用程序来生成和分配 HierarchyID的值,建立父子节点之间的关系。 HierarchyID数据类型 阅读全文
摘要:
你是否跟我一样,来自遥远的农村、小城镇,大学毕业之后,想都不想,就来到繁华的大城市?不管是北漂,还是沪漂,抑或是X漂,总之,漂的一族,要面临的问题很多,而最主要的问题肯定是找工作和住房。我到上海打拼,看重的是工作机会多,裙带关系少,只要肯努力,总能找到一份不错的工作,用心好好干,能力和薪资都能得到提 阅读全文
摘要:
验证是一个事件,该事件在Package执行时,第一个被触发,验证能够避免SSIS引擎执行一个有异常的Package或Task。延迟验证(DelayValidation)是把验证操作延迟到Package真正运行(run-time)时开始执行,当禁用延迟验证时,一旦验证操作返回错误(Error)或警告( 阅读全文
摘要:
全文索引不同于常见的聚集索引或非聚集索引,这些索引的内部实现是平衡树(B-Tree)结构,而全文索引在物理上是由一系列的内部表(Internal tables)构成的,这些内部表称作全文索引片段(Fragment),每一个索引片段也叫做一个倒转索引(Inverted index),也就是说,每一个倒 阅读全文
摘要:
SQL Server 的全文搜索(Full-Text Search)是基于分词的文本检索功能,依赖于全文索引。全文索引不同于传统的平衡树(B-Tree)索引和列存储索引,它是由数据表构成的,称作倒转索引(Invert Index),存储分词和行的唯一键的映射关系。倒转索引是在创建全文索引或更新全文索 阅读全文