摘要: 有些项目可能会涉及到从Excel导入数据,但如果Excel里单元格类型为数值,但内容数据太长时(如银行账号),导入时,会默认读取为科学计数法,用以下代码便轻松解决。BigDecimal bd = new BigDecimal("3.40256010353E11"); System.out.println(bd.toPlainString()); 阅读全文
posted @ 2014-01-06 11:00 传说中那只猫 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 窄表设计,将宽表字段做成指标,即可任意添加删除指标,无需改动数据表设计多种工资单均从一张指标表中获取数据数据库表设计 基本工资10001 岗位工资10002 岗位工资差补10003 岗位工资差补余额10004 绩效工资10005 应发工资10006 职务工资10007 延期支付提取系数30001 延期支付工资10008工资合计====11000住房积金20001 养老保险20002 失业保险20003 医疗保险20004 大病救助20005保险金合计====21000伙食费10009 电话费10010 加班费10011 交通补助费10012 本行补贴10013补贴费合计====12000个人所 阅读全文
posted @ 2013-12-21 21:36 传说中那只猫 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 在需求立项阶段进行业务需求定义,用上下文关系图定义项目的范围,项目包含的主题及主题域之间的关系,以及项目涉及的业务事件,不需要业务事件的详细流程项目的目标,主题,主题域项目的范围,上下文关系图,涉及的业务事件业务需求,描述项目的目标,前景和范围用户需求,描述用户对项目的要求,用例,场景描述,事件响应表等功能需求,描述开发人员需要完成的功能,满足用户需求,达到业务需求系统需求,描述包含多个子系统的产品的顶级需求,该产品可以包含软件系统,硬件系统,甚至人员系统业务需求,一般由客户产生,客户通过咨询顾问建模描述项目需要解决什么样的问题用户需求,用户为实现业务需求而提出的基于实际情况的具体目标,该部分 阅读全文
posted @ 2013-10-15 12:11 传说中那只猫 阅读(361) 评论(0) 推荐(0) 编辑
摘要: XML文件与平台是同步的,在XML文件中修改的部分,在平台界面上会同步更新出来报表模版两种获取数据的方式,参数传递与sql获取取值三种参数parameters是外部传入参数$P{test}.equals("12")在生成可访问的静态文件前,由用户在弹出框中输入值fields字段从数据源中获取的数据$F{cdt_clas_1026815_iris_class}在生成可访问的静态文件前,通过设置的数据源连接获取数据variable自定义变量主要用作对获取的数据进行计算,如求和差方差等等$P是需要用户输入的参数$F是从数据源获取的数据$V是对目标数据进行计算后得到数据,可以得到平 阅读全文
posted @ 2013-09-05 16:50 传说中那只猫 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 语义层构思源数据加载后,需要通过界面选择,将自身字段与语义层表字段进行映射,才能使用此数据表在界面上,由用户将语义层表的字段与源数据表选择映射关系,映射关系关系保存在语义层表中,例,A表字段身份证号,映射到语义层表中对应ID字段,B表字段identify,映射到语义层表中同样对应ID字段,Z表字段id,映射到语义层表中也对应ID字段,如此方可以实现将多种不同来源的数据进行整合mapper构思使用一张mapper表,如果需要应对多种情况,那么表变动必然很大,如此一来,无法手动完成,必须借助程序自动化方案一,将所选择的数据源表的所有字段列出,由用户手动选择可能会用到的变量,然后生成一张mapper 阅读全文
posted @ 2013-09-05 16:15 传说中那只猫 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 变量筛选完成后的instances,调用t检验方法处理,最后得到一个instances调用指定算法类中的建模方法public void buildClassifier(Instances train)传入instances,方法执行后,该算法类成为模型类使用测试数据,实例化模型测试类,传入测试数据Evaluation Test = new Evaluation(insatnces);实例化好的测试类,调用测试方法,传入模型类与测试数据Test.evaluateModel(模型类, insatnces);返回一个double[]类型,内容为1.0与0.0根据这个结果画图或者做其他分析模型类本身自 阅读全文
posted @ 2013-09-05 15:54 传说中那只猫 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间预测和分类的异同相同点两者都需要构建模型都用模型来评估未知值.预测当中主要的评估方法是回归分析..线性回归和多元回归..非线性回归不同点分类法主要是用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值)线性回归:Y = α + βX其中αβ是回归系数,可以根据给定的数据点,通过最小二乘法来求得多元回归:Y = α + β1X1 + β2X2线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的α,β1和β2非线性回归对不是呈线性依赖的数据建模使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线 阅读全文
posted @ 2013-09-05 15:37 传说中那只猫 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 熵(entropy)指的是体系的混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。数据预处理数据预处理技术包括:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。属性的类型:标称(定性的)值仅仅是不同的名字,即只提供足够的信息以区分对象,如ID,性别。序数(定性的)值提供足够信息确定对象的序,如成绩,号码。区间(定量的)值之间的差别有意义,即存在测量单位,如日期,温度。比率(定量的)差和比率都是有意义的,如年龄,长度。时序数据(时间数据)是对记录数据的扩充,其中,每个记录包含一个与之 阅读全文
posted @ 2013-09-05 15:34 传说中那只猫 阅读(3452) 评论(0) 推荐(0) 编辑
摘要: 数据库导入层DataStage 是由IBM公司开发的,是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等联机分析处理OLAP(On-Line Analytical Processing)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。功能与作用从源数据层的数据抽取采用DataStage向数据仓库中央数据库的数据加载采用teradata的数据加载工具或DS插件(data sto 阅读全文
posted @ 2013-09-05 15:31 传说中那只猫 阅读(2077) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。知识发现KD输出的是规则数据挖掘DM输出的是模型共同点两种方法输入的都是学习集(learning sets)目的都是尽可能多的自动化数据挖掘过程只能半自动化,不能完全自动化社会信息化后,社会的运转是软件的运转,社会的历史是数据的历史技术分类预言:用历史预测未来描述:了解数据中潜在的规律数据挖掘技术关联分析序列模式分类(预言)聚集异常检测异常检测是数据挖掘中一个重要方面,用来发现‘小的模式’(相对于聚类),即数据集中间显著不同于其他数据的对象。知识发现系统前处理过程,抽取、清洗、选择、转换知识发现系统是一个自动/半自动过程,需要有很好的性能能 阅读全文
posted @ 2013-09-05 15:30 传说中那只猫 阅读(351) 评论(0) 推荐(0) 编辑