honkcal

2012年8月3日

摘要：理解控制流和数据流的一个入口是看他们如何运行的。一个控制流任务是一个最小的执行单位，它的运行结果有成功，失败，和完成，在运行它的下一个任务之前必须得到这些结果。在数据流任务中，转换时最基本的元素。一个转换任务和控制任务是有很大的区别的。转换任务之间是可以并行执行的，不必等待上一个转换任务执行完毕。控制流和数据流之间的比较控制流和数据流之间看上去很相似，但是他们有天壤之别。控制流不会处理组件之间的数据，它负责协调单独的组件单元之间的工作。这里有一些概念： 工作流协调 处理导向 顺序的或平行的任务的执行 异步处理控制流任务可以顺序的执行，大多数时候他们会同时以这两种方式来执行。... 阅读全文

posted @ 2012-08-03 16:55 honkcal 阅读(1096) 评论(0) 推荐(0) 编辑

2012年8月1日

Hadoop MapReduce 原理

摘要： Hadoop是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB 级）的大文件（通常超过64M），其原理如下图所示：采用Master/Slave 结构。NameNode 维护集群内的元数据，对外提供创建、打开、删除和重命名文件或目录的功能。DatanNode 存储数据，并提负责处理数据的读写请求。DataNode定期向NameNode 上报心跳，N 阅读全文

posted @ 2012-08-01 14:08 honkcal 阅读(2890) 评论(1) 推荐(0) 编辑

数据预处理

摘要：数据挖掘是从大量的，不完全的，有噪声的，模糊的，随即的数据中，提取隐含在其中的，人们事先不知道的，但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集，数据预处理，数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中，数据预处理要花费60%左右的时间，而后的挖掘工作仅仅占工工作量的10%左右。目前对挖掘的研究主要集中于挖掘技术，挖掘算法，挖掘语言等在海量的原始数据中，存在这大量杂乱的，重复则，不完整的数据，严重影响到数据挖掘算法的执行效率，有可能导致挖掘结果的偏差。数据预处理分类：从对不同的源数据进行预处理的功能来分，数据预处理主要包括数据清理，数据集成，数据变换，数据规约等4个基本阅读全文

posted @ 2012-08-01 00:37 honkcal 阅读(11133) 评论(0) 推荐(0) 编辑

2012年7月31日

SSIS常用的包—通用的属性(转)

摘要：今天讲学习一下SSIS包中通用的属性，这部分没有实际操作的部分，只是一些简单的介绍。无论使用包中的何种task，都有一些通用的属性，在这里列举： • Disable:设置这个属性为true使该task不能执行 • DelayValidation:设置为true只至运行时才验证task中的属性，在非连接状态下和为task输入一个外部参数值但是直到部署时才验证这种情况下会很有用。它的默认设置时false。 • Description:该属性描述task的情形。默认的值是<task name>，如果多个task类型相同则可设置为<task name 1>（数字1递增）。这个属阅读全文

posted @ 2012-07-31 12:48 honkcal 阅读(726) 评论(0) 推荐(0) 编辑

2012年7月30日

数据可挖掘的知识类型详解

摘要： •1概念/类描述•2关联模式•3分类•4聚类分析•5预测•6时间序列•7偏差检测（1）概念/类描述概念/类描述就是通过对某类对象关联数据的汇总，分析和比较，用汇总的简洁的精确的方式对此类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为：特征性描述和区别性描述。特征性描述：是指从与某类对象相关的一组数据中提取出关于这些对象的共同特征。生成一个类的特征性描述只涉及该类对象中所有对象的同性。。区别性描述：描述两个或者更多不同类对象之间的差异。生成区别性描述则涉及目标类和对比类中对象的共性。数据特征的输出可以用多种形式提供：包括饼图，条图，曲线，多维数据方和包括交叉表在内的多维表。结果描阅读全文

posted @ 2012-07-30 23:52 honkcal 阅读(1272) 评论(0) 推荐(0) 编辑

第五章之MapReduce应用开发

摘要：使用MapReduce来编写程序，有一个特定的流程，首先写map函数和reduce函数，最好使用单元测试来确保函数的运行符合预期。然后写一个驱动程序来运行作业，要看这个驱动程序是否可以运行，可以从本地IDE用一个晓得数据集来运行他，如果驱动程序不能正确运行，就用本地IDE调试器来找出问题根源。通过这些调试信息，可以加大单元测试使其覆盖这一测试用例，进而改进mapper或reducer。程序运行后，你可能想进行一些优化调整，首先执行一些标准检查，借此加快MapReduce程序的运行，然后再做一些任务剖析(task profiling)，分布式程序的分析并不简单，Hadoop提供了钩子（hook）阅读全文

posted @ 2012-07-30 00:45 honkcal 阅读(241) 评论(0) 推荐(0) 编辑

2012年7月28日

第四章之Hadoop I/O

摘要：数据的完整性检测数据是否损坏的常见措施是：在数据第一次引入系统的时候计算校验和（checksum），并在数据通过一个不可靠的通道进行传输时候再次计算校验和，这样就能发现数据是否损坏。如果新的校验和和原来的校验和不匹配，我们就认为数据已经损坏。常用的数据检测码是:CRC-32(循环冗余校验)HDFS的数据完整性datanode负责验证收到的数据后存储数据及其校验和，它在收到客户端的数据或复制期间其他datanode的数据时候执行这个操作。正在写数据的客户端将数据极其校验和发送到由一些列datanode组成的管线，管线中的最后一个datanode负责验证校验和。如果datanode检测到错误，客户阅读全文

posted @ 2012-07-28 00:05 honkcal 阅读(699) 评论(0) 推荐(0) 编辑

2012年7月25日

SQLServer-SSAS数据挖掘

摘要：基本知识：1数据挖掘的过程：从海量数据中，提取隐含在其中的，人们事先不知道的但又可能有用的信息和知识的过程。2数据挖掘的数据源：数据仓库，数据库和其他数据源3数据挖掘的特性：反复性SQL 2005 算法集合多维数据分析和数据挖掘的区别基于数据仓库的联机分析处理技术和数据挖掘技术的融合和互补，将是商业职能技术的发展方向。DMX介绍功能：创建和处理数据挖掘模型；创建新数据挖掘模型的结构；为挖掘模型定型；浏览管理和预测基本框架：数据定义语言DDL，数据操作语言DML，函数，运算符语法元素：标志符：字母，下划线，数字，分隔标识符‘[]’数据类型：Text，Long，Date，Boolean，Doubl 阅读全文

posted @ 2012-07-25 10:57 honkcal 阅读(2593) 评论(0) 推荐(0) 编辑

2012年7月23日

RAID 磁盘阵列解析

摘要：前阵子上数据中心的课程，老师讲解了些磁盘阵列（RAID）的不少知识，隔了两周了，回顾下的。磁盘阵列（Redundant Arrays of Inexpensive Disks，RAID）原理是利用数组方式来作磁盘组，配合数据分散排列的设计，提升数据的安全性。缓存磁盘阵列作为独立系统在主机外直连或通过网络与主机相连。磁盘阵列有多个端口可以被不同主机或不同端口连接。一个主机连接阵列的不同端口可提升传输速度。和目前PC用单磁盘内部集成缓存一样，在磁盘阵列内部为加快与主机交互速度，都带有一定量的缓冲存储器。主机与磁盘阵列的缓存交互，缓存与具体的磁盘交互数据。在应用中，有部分常用的数据是需要经常读取. 阅读全文

posted @ 2012-07-23 19:46 honkcal 阅读(347) 评论(0) 推荐(0) 编辑

第三章之Hadoop分布式文件系统

摘要：管理网络中跨多台计算机存储的文件系统称为分布式文件系统。Hadoop有一个称为HDFS的分布式系统称为Hadoop Distributed FilesystemHDFS设计HDFS以流式数据访问模式来存储超大文件，运行于商用硬件集群上。流式数据访问：HDFS的构建思路：一次写入，多次读取的高效的访问模式。数据集通常是由数据源生成或者从数据源复制而来，接着长时间在此数据集上进行各类分析，每次分析都涉及该数据集的大部分或者是全部，因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更为重要。商用硬件：节点故障的几率还是非常高的，HDFS遇到上述故障的时候，被设计成能够继续运行且不让用户察觉到明显阅读全文

posted @ 2012-07-23 14:17 honkcal 阅读(2792) 评论(0) 推荐(0) 编辑

数据分析概览（整理）

摘要：一：1 什么是数据数据是对销售等业务全过程记录下来的可以鉴别的符号。数据时销售业务全过程的属性数量、位置以及相通关系等等的抽象表示。2数据分析的目的让数据说话！！行动的向导！！杜绝浪费！！提供决策的依据！！3数据的分类按照数据的来源分为：人力资源数据，财务数据，营销数据，采购数据，仓储数据，生产数据，编辑数据4 运用统计方法应改遵循的原则坚持用数据说话的基本观点！！有目的的收集数据！掌握数据来源！认真整理数据！5统计分析流程确定问题确定分析目标--〉采用科学的方法收集数据--〉考察数据时效性整理数据--〉统计分析--〉出分析报告，提出解决方案或者建议数据分析的误区误区（1）展示的元素不宜大于三阅读全文

posted @ 2012-07-23 13:39 honkcal 阅读(1084) 评论(0) 推荐(0) 编辑

2012年7月22日

第二章之关于MapReduce

摘要： MapReduce 是一种可用于数据处理的编程模型。Hadoop可以运行由各种语言编写的MapReduce程序。MapReduce程序本质上是并行运行的，MapReduce的优势在于处理大规模数据集。如果说处理大规模数据集使用多线程的方法，也会有很多问题，最主要的是协调性和可靠性两大因素，哪个进程负责运行整个作业，我们如何处理失败的进程？使用Hadoop分析数据需要把查询表示成MapReduce作业。Map阶段和Reduce阶段。每个阶段都以键/值对作为输入和输出，并由程序员选择他们的类型。需要定义两个函数：map函数和Reduce函数。新增的Java MapReduce API新的多使用阅读全文

posted @ 2012-07-22 00:20 honkcal 阅读(698) 评论(0) 推荐(0) 编辑

2012年7月20日

第一章之初识Hadoop笔记

摘要：数据存储与分析要实现对多个磁盘数据的并行读写需要解决的很多问题1 硬件故障问题。硬件多了，发生故障的概率变大。避免数据丢失的是备份。RAID(冗余磁盘阵列)，HDFS2 大多数分析任务需要以某种方式结合大部分数据共同完成分析任务，一个磁盘读取得数据可能需要和另外的99个磁盘中读取的数据结合使用，各种分布式系统允许结合多个来源的数据并实现分析，但保证其正确性是一个很大的挑战，MapReduce提出一个编程模型，该模型将上述磁盘读写问题进行抽象，转换为一个对数据集(由键/值对组成)的计算。该计算由map和reduce两部分组成，而只有这两部分提供对外的接口。与HDFS类似，MapReduc 阅读全文

posted @ 2012-07-20 11:15 honkcal 阅读(299) 评论(0) 推荐(0) 编辑

MapReduce广泛应用技术原因（序篇）

摘要： 1 MapReduce采用无共享大规模集群系统，集群系统的好的性价比和可伸缩性，这个优势使得MapReduce成为大规模海量数据的首选条件2MapReduce模型简单，易于理解，使用，大量数据处理问题包括很多机器学习和数据挖掘算法，都可以使用MapReduce实现3虽然基本的MapReduce模型只是提供一个过程性的编程接口，但是在海量数据环境需要保证可伸缩性的前提下，通过合适的查询优化和索引技术，MapReduce仍然能够提供好的数据处理性能阅读全文

posted @ 2012-07-20 10:17 honkcal 阅读(242) 评论(0) 推荐(0) 编辑

2012年6月20日

C# DATAGRIDVIEW转载

摘要： 0(最基本的技巧)、获取某列中的某行(某单元格)中的内容this.currentposition = this.dataGridView1.BindingContext [this.dataGridView1.DataSource, this.dataGridView1.DataMember].Position;bookContent = this.database.dataSet.Tables[0].Rows [this.currentposition][21].ToString().Trim();MessageBox.Show(bookContent); 1、自定义列//定义列宽this. 阅读全文

posted @ 2012-06-20 00:51 honkcal 阅读(245) 评论(0) 推荐(0) 编辑

有些东西很简单。有些东西很难，难了就多看几遍，便简单了。

公告