摘要: 数据行业有一句很经典的话——“垃圾进,垃圾出”(Garbage in, Garbage out, GIGO),意思就是,如果使用的基础数据有问题,那基于这些数据得到的任何产出都是没有价值的。而对于数据分析挖掘而言,只有一份高质量的基础数据,才可能得到正确、有用的结论。本文主要介绍数据质量检查的基本思 阅读全文
posted @ 2018-04-22 21:49 hbsygfz 阅读(5379) 评论(0) 推荐(0) 编辑
摘要: 本文主要对Python如何读取结构化数据进行总结梳理,涵盖从文本文件,尤其是excel文件(用于离线数据探索分析),以及结构化数据库(以Mysql为例)中读取数据等内容。 约定: import numpy as np import pandas as pd 1、从文本文件中读取 (1)使用Pytho 阅读全文
posted @ 2018-04-19 15:45 hbsygfz 阅读(1672) 评论(1) 推荐(0) 编辑
摘要: Pandas有两大数据结构:Series和DataFrame,之前已对Series对象进行了介绍( "链接" ),本文主要对DataFrame对象的常用用法进行总结梳理。 约定: import pandas as pd 1、什么是DataFrame对象? 一个二维表,有行索引(index)和列索引( 阅读全文
posted @ 2018-04-19 10:19 hbsygfz 阅读(1089) 评论(1) 推荐(0) 编辑
摘要: Pandas是Python下最强大的数据分析和探索库,是基于Numpy库构建的,支持类似SQL的结构化数据的增、删、查、改,具有丰富的数据处理函数。Pandas有两大数据结构:Series和DataFrame,本文主要对Series的常用用法进行总结梳理。 约定: import pandas as 阅读全文
posted @ 2018-04-16 21:14 hbsygfz 阅读(1786) 评论(0) 推荐(0) 编辑
摘要: 想把本地的数据文件(比如txt、csv)中的数据导入到Teradata虚拟机中的表中。既可以使用Teradata Assistant中的import功能,也可以使用fastload导入,前者的缺点是一次至多导入1000行记录,后者的缺点是需要写一定的代码。 这里介绍一种使用TDload工具(Tera 阅读全文
posted @ 2018-03-01 16:20 hbsygfz 阅读(1049) 评论(0) 推荐(0) 编辑
摘要: 由于ubuntu16.04系统自带的是Firefox浏览器,需要安装Chrome浏览器,但是在root用户下安装后发现,Chrome无法正常启动。安装及问题解决具体如下: 1. ubuntu上Chrome浏览器的安装(注意:这里是在root用户下) step1:将Chrome下载源加入到系统的源列表 阅读全文
posted @ 2018-02-03 15:06 hbsygfz 阅读(16758) 评论(0) 推荐(1) 编辑
摘要: `使用python进行数据分析或者数据处理时,往往需要使用一些库,而使用库之前必须安装它。Anaconda内置了很多常用的第三方库,可以满足绝大部分需求,比如numpy、pandas、matplotlib等等,因此不需要用户再进行安装。但是一些不常用的、或者小众的库则需要我们手动安装。` 1.如何判 阅读全文
posted @ 2018-01-24 21:50 hbsygfz 阅读(1061) 评论(0) 推荐(0) 编辑
摘要: 1.为什么选择Anaconda? Anaconda解决了Python使用痛点。 Python好用但是令人头疼的就是库管理与Python不同版本的问题,特别是Windows环境下。 2.什么是Anaconda? 具有强大而方便的库管理与环境管理的功能,正好解决了Python使用的痛点。 是一个用于科学 阅读全文
posted @ 2018-01-24 21:39 hbsygfz 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 1. 引言 在 "第一篇" 笔者介绍到数据处理主要有两种,操作型数据处理和分析型数据处理,前者可以称为OLTP,后者可以称为OLAP。本篇将具体介绍什么是OLAP?它与OLTP的区别是什么?多维数据模型和多维分析操作是OLAP中的两种核心技术,也会予以说明。 2. OLAP定义 联机分析处理( )的 阅读全文
posted @ 2015-08-27 10:02 hbsygfz 阅读(4051) 评论(1) 推荐(1) 编辑
摘要: 1. 引言 在前两篇,笔者介绍了什么是数据仓库?为什么需要数据仓库?数据仓库系统的体系结构是什么?因此可能在读者心里已经形成了企业数据存储的DB~DW两层体系结构的概念,但在实际应用中,并不总是这样,有时候我们可能需要ODS这一系统来搭建DB~ODS~DW三层数据体系,那么什么是ODS?为什么需要O 阅读全文
posted @ 2015-08-26 10:48 hbsygfz 阅读(12505) 评论(2) 推荐(5) 编辑