以美国金融机构客户投诉数据分析为例,比较Smartbi和Excel数据透视表

作为数据分析师,想必你能够熟练的使用Excel数据透视表:自由组合行列字段、对数据进行多层次汇总、排序筛选、数据作图等等。而且,当原始数据发生更改时,可以立刻更新数据透视表。

 

微信图片_20210112163303.jpg

 

但当你拿到一个几十万行的Excel文件,该怎么办呢?Excel毕竟只是桌面应用,处理的数据量有限,2003版只能处理6.5万行数据,2007/2010/2013支持100万行,但在实际应用中,当数据量变大后,Excel 的性能剧降,打开文件可能就需要几分钟。

 

大数据时代,Smartbi为数据分析师提供了新的武器,它内置了列存储数据库infobright,这是TB级别的数据库,支持亿、十亿条数据,用它来处理几十万行数据,自然不是问题。在前端操作界面上,Smartbi xQuery自助分析模块提供了浏览器版的数据透视表,操作方法和Excel类似。

 

微信图片_20210112163307.jpg

 

下面以美国金融机构投诉数据分析为例,比较一下两个软件。数据来源于消费者金融保护局(Consumer Financial Protection Bureau),数据量37万条,数据时间跨越2011年12月至2015年4月。数据项目有投诉编号、投诉产品、子产品、问题、州、投诉时间、投诉公司等。

 

微信图片_20210112163311.jpg

 

打开数据的速度

Excel文件大小约45M,在一台高配置电脑(四代酷睿I5+8G+SSD),Excel 2010打开文件约需30秒时间。

 

Smartbi需要先将Excel文件导入系统,首次导入步骤需要花费3-4分钟,但之后使用数据均无需任何时间。

 

微信图片_20210112163315.jpg

 

微信图片_20210112163318.jpg

 

界面比较

Excel数据透视表和smartbi的界面很接近,不同点在于Excel采用了目录型的结构,Smartbi采用了表格模式。当层次结构多时,Excel目录结构不太好,但可以通过设置布局调整为表格模式。

 

微信图片_20210112163330.jpg

 

微信图片_20210112163335.jpg

 

重计算速度

Excel在添加、删除维度后,重新计算的过程略显迟滞,Smartbi相对较快。30万行数据的差距不大,相信在更大数据量下,Smartbi的优势会更明显。

 

添加计算字段

原始数据只有日期字段,分析时需要按年度、月度进行汇总,所以需要添加计算字段,Excel在原始数据中插入两列,分别用Year()、Month()函数获取。

 

微信图片_20210112163338.jpg

 

微信图片_20210112163343.jpg

 

Smartbi可以新建计算字段,同样用函数提前年份、月份。

 

微信图片_20210112163346.jpg

 

微信图片_20210112163350.jpg

 

排序比较

Excel的排序功能较为隐蔽,尤其涉及多级排序时,需要多次选择排序字段。

微信图片_20210112163353.jpg

 

 

Smartbi提供了分级排序功能,分析多层次数据时很方便。

 

微信图片_20210112163357.jpg

 

数据筛选

Excel采用下拉框的方式来选择筛选项,对于小数据非常方便,但如果选择项目很多时略显难用。筛选项的数量上限是1万个。

 

微信图片_20210112163401.jpg

 

Smartbi采用了对话框来选择筛选项,较适合大数据量,筛选项的数量没有上限。

微信图片_20210112163405.jpg

 

交叉表

Excel交叉表的默认界面不会折行显示列标签,会把列撑的很宽,不太好看。当然你可以调整列宽,但操作上显的复杂。

 

微信图片_20210112163408.jpg

 

Smartbi的默认行宽是固定的,数据会折行显示,界面更加友好。

 

微信图片_20210112163412.jpg

 

总结:

 

Excel数据透视表确实强大,但当它碰到大数据的时候,就会发现它也有不爽之处:性能问题、界面细节问题、排序问题等等。Smartbi通过前端界面及后端存储方面的创新,对于大数据的分析显然更具优势。

posted @   明月说数据  阅读(294)  评论(0编辑  收藏  举报
编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示