摘要: XML文件与平台是同步的,在XML文件中修改的部分,在平台界面上会同步更新出来报表模版两种获取数据的方式,参数传递与sql获取取值三种参数parameters是外部传入参数$P{test}.equals("12")在生成可访问的静态文件前,由用户在弹出框中输入值fields字段从数据源中获取的数据$F{cdt_clas_1026815_iris_class}在生成可访问的静态文件前,通过设置的数据源连接获取数据variable自定义变量主要用作对获取的数据进行计算,如求和差方差等等$P是需要用户输入的参数$F是从数据源获取的数据$V是对目标数据进行计算后得到数据,可以得到平 阅读全文
posted @ 2013-09-05 16:50 传说中那只猫 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 语义层构思源数据加载后,需要通过界面选择,将自身字段与语义层表字段进行映射,才能使用此数据表在界面上,由用户将语义层表的字段与源数据表选择映射关系,映射关系关系保存在语义层表中,例,A表字段身份证号,映射到语义层表中对应ID字段,B表字段identify,映射到语义层表中同样对应ID字段,Z表字段id,映射到语义层表中也对应ID字段,如此方可以实现将多种不同来源的数据进行整合mapper构思使用一张mapper表,如果需要应对多种情况,那么表变动必然很大,如此一来,无法手动完成,必须借助程序自动化方案一,将所选择的数据源表的所有字段列出,由用户手动选择可能会用到的变量,然后生成一张mapper 阅读全文
posted @ 2013-09-05 16:15 传说中那只猫 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 变量筛选完成后的instances,调用t检验方法处理,最后得到一个instances调用指定算法类中的建模方法public void buildClassifier(Instances train)传入instances,方法执行后,该算法类成为模型类使用测试数据,实例化模型测试类,传入测试数据Evaluation Test = new Evaluation(insatnces);实例化好的测试类,调用测试方法,传入模型类与测试数据Test.evaluateModel(模型类, insatnces);返回一个double[]类型,内容为1.0与0.0根据这个结果画图或者做其他分析模型类本身自 阅读全文
posted @ 2013-09-05 15:54 传说中那只猫 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间预测和分类的异同相同点两者都需要构建模型都用模型来评估未知值.预测当中主要的评估方法是回归分析..线性回归和多元回归..非线性回归不同点分类法主要是用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值)线性回归:Y = α + βX其中αβ是回归系数,可以根据给定的数据点,通过最小二乘法来求得多元回归:Y = α + β1X1 + β2X2线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的α,β1和β2非线性回归对不是呈线性依赖的数据建模使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线 阅读全文
posted @ 2013-09-05 15:37 传说中那只猫 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 熵(entropy)指的是体系的混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。数据预处理数据预处理技术包括:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。属性的类型:标称(定性的)值仅仅是不同的名字,即只提供足够的信息以区分对象,如ID,性别。序数(定性的)值提供足够信息确定对象的序,如成绩,号码。区间(定量的)值之间的差别有意义,即存在测量单位,如日期,温度。比率(定量的)差和比率都是有意义的,如年龄,长度。时序数据(时间数据)是对记录数据的扩充,其中,每个记录包含一个与之 阅读全文
posted @ 2013-09-05 15:34 传说中那只猫 阅读(3452) 评论(0) 推荐(0) 编辑
摘要: 数据库导入层DataStage 是由IBM公司开发的,是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等联机分析处理OLAP(On-Line Analytical Processing)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。功能与作用从源数据层的数据抽取采用DataStage向数据仓库中央数据库的数据加载采用teradata的数据加载工具或DS插件(data sto 阅读全文
posted @ 2013-09-05 15:31 传说中那只猫 阅读(2077) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。知识发现KD输出的是规则数据挖掘DM输出的是模型共同点两种方法输入的都是学习集(learning sets)目的都是尽可能多的自动化数据挖掘过程只能半自动化,不能完全自动化社会信息化后,社会的运转是软件的运转,社会的历史是数据的历史技术分类预言:用历史预测未来描述:了解数据中潜在的规律数据挖掘技术关联分析序列模式分类(预言)聚集异常检测异常检测是数据挖掘中一个重要方面,用来发现‘小的模式’(相对于聚类),即数据集中间显著不同于其他数据的对象。知识发现系统前处理过程,抽取、清洗、选择、转换知识发现系统是一个自动/半自动过程,需要有很好的性能能 阅读全文
posted @ 2013-09-05 15:30 传说中那只猫 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 根据系统的内存使用量,CPU使用量,以及进程数分析问题ETL与ELTETL多数依靠工具,利用工具进行数据清洗,标准化后装载ELT是先将数据装载入数据库,再利用数据库技术清洗数据使用ETL还是ELT和你本身数据库的特性有关的,有些种类数据库(线性增长的数据库||并行处理),数据的逻辑处理在库内的速度要快,而有些库是将复杂的逻辑放在库外更合适。Teradata数据库采用的就是典型的ELT,因为数据库本身就是并行的,先将数据快速导入到数据库,然后利用数据库节点的并行运算来快速处理逻辑。这两种方式各有其优点,ETL方式优势在于“(源)多->(目标)少”的转换过程,这种情况下ELT方式需要将原始数 阅读全文
posted @ 2013-09-05 15:27 传说中那只猫 阅读(688) 评论(0) 推荐(0) 编辑
摘要: 第一部分 导论第1章 商业数据挖掘简介 1.1 介绍 1.2 进行数据挖掘需要什么 1.3 数据挖掘 1.4 集聚营销 1.5 商业数据挖掘 1.6 数据挖掘工具第2章 数据挖掘过程与知识发 2.1 CRISP-DM 2.2 知识发现过程第3章 数据挖掘的数据库支持 3.1 数据仓库 3.2 数据集市 3.3 联机分析处理 3.4 数据仓库的实现 3.5 元数据 3.6 系统示范 3.7 数据质量 3.8 软件产品 3.9 实例第二部分 数据挖掘工具第4章 数据挖掘方法概述 4.1 数据挖掘方法 4.2 数据挖掘视野 4.3 数据挖掘的作用 4.4 实证数据集附录4A第5章 聚类分析 5.1 阅读全文
posted @ 2013-09-05 15:23 传说中那只猫 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 专业贷款巴塞尔2将不同于其他公司贷款的批发贷款做出了细分,并将他们统称为专业贷款。专业贷款是指单个项目提供的融资,其还款与对应的资产池或抵押品的营运情况紧密相关。对于除一项专业贷款外,对于其他专业贷款,如果银行能够满足估计相关数据的最低要求,他们即可采用公司贷款IRB法计算这类风险暴露的风险权重。然而,考虑在实际中满足这些要求还存在许多困难,第三稿还另外要求银行将这类风险暴露细分为五个档次。第三稿对各档规定了明确的风险权重。对于特定的一类专业贷款,即“高波动性商业房地产”(high volatility commercial realestate. HVCRE),有能力估计所需数据的IRB法银 阅读全文
posted @ 2013-09-05 15:21 传说中那只猫 阅读(1684) 评论(0) 推荐(0) 编辑
摘要: weka只支持4个数据类型,跟数据库对不上号,所以需要自己手动将数据库读出来的数据映射成weka支持的类型才能进行处理配置文件位置在/src/weka/experiment/DatabaseUtils.props# General information on database access can be found here:# http://weka.wikispaces.com/Databases## Version: $Revision: 5836 $# The comma-separated list of jdbc drivers to use#jdbcDriver=RmiJdbc 阅读全文
posted @ 2013-09-05 11:36 传说中那只猫 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 数据库写入操作类,执行模式在父类中定义public class DatabaseSaver extends AbstractSaver 建表方法,由写入程序调用private void writeStructure()新建配置SQL语句StringBuffer query = new StringBuffer();获取建表数据集Instances structure = getInstances();开始配置SQL语句query.append("CREATE TABLE ");表名获取并加入sql if(m_tabName || m_tableName.equals(&qu 阅读全文
posted @ 2013-09-05 11:28 传说中那只猫 阅读(302) 评论(0) 推荐(0) 编辑
摘要: weka设置数据库方法类InstanceQuery方法 public Instances retrieveInstances(String query)方法传入SQL语句数据库查询操作类instanceQuery iq = new InstanceQuery();设置数据库连接用户名iq.setUsername("sa");用户密码iq.setPassword("1234");数据库地址iq.setDatabaseURL("jdbc:sqlserver://localhost:1433;databaseName=Credit");查询 阅读全文
posted @ 2013-09-05 11:26 传说中那只猫 阅读(313) 评论(0) 推荐(0) 编辑
摘要: logistic.java建立模型函数buildClassifier(Instances train)获取测试类的实例化对象,在调用测试方法来测试传入的数据集getCapabilities().testWithFail(train);将数据集中,所有有缺失数据的记录删除,自带的清洗功能train = new Instances(train);train.deleteWithMissingClass();获取过滤器,此过滤器做缺失值填充m_ReplaceMissingValues = new ReplaceMissingValues();设定过滤器对象m_ReplaceMissingValues 阅读全文
posted @ 2013-09-05 11:23 传说中那只猫 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 构建Attribute时,将分类属性加载入hashtable,构建模型时,将用到的分类属性与hashtable中的记录进行对比,失败报错Attribute gender = new Attribute( "Weight", genderCategory);public DataObject delegator(String className, String methodName, DataObject para) throws Exception{//查找客户化表,获取客户化的类String customClassName = getCustomClass(classNa 阅读全文
posted @ 2013-09-05 11:22 传说中那只猫 阅读(258) 评论(0) 推荐(0) 编辑
摘要: svmtestClassifier m_classifier = new LibSVM();使用父类 分类器 实例化svm类ArffLoader atf = new ArffLoader();arff文件装载器装载arff分两种,第一种训练模型用的训练文件,第二种测试模型用的测试文件,这里训练文件为test,测试文件为test2atf.setFile(inputFile);arff文件装载器,第一步设置文件路径,然后使用getDataSet()方法获取文件中的数据集合,数据集合放在weka自定义的数据结构Instances中Instances instancesTrain = atf.getD 阅读全文
posted @ 2013-09-05 11:21 传说中那只猫 阅读(600) 评论(0) 推荐(0) 编辑
摘要: 访问地址批量导出的方式以下是导出无数据的模版http://localhost:8075/WebReport/ReportServer?reportlets=({reportlet:/G2200.cpt},{reportlet:/G3100.cpt},{reportlet:/G4000.cpt},{reportlet:/G4100.cpt})&format=pdfhttp://localhost:8075/WebReport/ReportServer 前半部分访问报表服务器地址,后半部分为导出报表的参数reportlets=({reportlet:/G2200.cpt},{reportl 阅读全文
posted @ 2013-09-05 11:17 传说中那只猫 阅读(2430) 评论(0) 推荐(0) 编辑
摘要: 2.多数据集实现可能性采用javabean的方式可以支持报表多数据集,实现方式是将sql放在java代码中,获取了数据集后,再调用报表填充,报表模版只做格式。以上相结合可以实现简单的非通用结构。3.非通用设计非灵活的方式是,一个模版对应一个javabean及一个控制类。增加新模版时,需要同时增加对应的javabean及控制模版填充的控制类,虽然可以模版,javabean,控制类三部分同时并行,不过无法交由可以自己设计更新报表模版。此方式基于已实现的工程,只需要在控制类中增加数据的获取方式即可。此设计平台完成后,功能完美,三个人并行开发,三人开发熟练并且之间接口默契,在开发完不测试的情况下,新增 阅读全文
posted @ 2013-09-05 10:37 传说中那只猫 阅读(234) 评论(0) 推荐(0) 编辑
摘要: weka平台分类面板运行分析gui表层通用资源文件weka.gui.message.messages.properties解释部分通用资源文件weka.gui.explorer..message.messages.properties初始化主界面ClassifierPanel类分类面板GenericObjectEditor类通用的获取子类的工具每当监听到参数或者类型修改,调用public void setValue(Object o)方法更新GenericObjectEditor内部子类对象数据,保证内部参数与面板显示同步其中createChooseClassButton()方法生成选择何种算 阅读全文
posted @ 2013-09-05 10:31 传说中那只猫 阅读(590) 评论(0) 推荐(0) 编辑
摘要: public String add() throws Exception{Thread.sleep(2000);HttpServletRequest request = ServletActionContext.getRequest();//起始字母char arr = 'A';//页面传值集合Map mparam = new HashMap();//单条计算集合Map result = new HashMap();//单项分集合Map rank = new HashMap();//单项排名分集合Map resultrank = new HashMap();//总分double 阅读全文
posted @ 2013-09-05 10:21 传说中那只猫 阅读(279) 评论(0) 推荐(0) 编辑