摘要: 根据系统的内存使用量,CPU使用量,以及进程数分析问题ETL与ELTETL多数依靠工具,利用工具进行数据清洗,标准化后装载ELT是先将数据装载入数据库,再利用数据库技术清洗数据使用ETL还是ELT和你本身数据库的特性有关的,有些种类数据库(线性增长的数据库||并行处理),数据的逻辑处理在库内的速度要快,而有些库是将复杂的逻辑放在库外更合适。Teradata数据库采用的就是典型的ELT,因为数据库本身就是并行的,先将数据快速导入到数据库,然后利用数据库节点的并行运算来快速处理逻辑。这两种方式各有其优点,ETL方式优势在于“(源)多->(目标)少”的转换过程,这种情况下ELT方式需要将原始数 阅读全文
posted @ 2013-09-05 15:27 传说中那只猫 阅读(688) 评论(0) 推荐(0) 编辑
摘要: 第一部分 导论第1章 商业数据挖掘简介 1.1 介绍 1.2 进行数据挖掘需要什么 1.3 数据挖掘 1.4 集聚营销 1.5 商业数据挖掘 1.6 数据挖掘工具第2章 数据挖掘过程与知识发 2.1 CRISP-DM 2.2 知识发现过程第3章 数据挖掘的数据库支持 3.1 数据仓库 3.2 数据集市 3.3 联机分析处理 3.4 数据仓库的实现 3.5 元数据 3.6 系统示范 3.7 数据质量 3.8 软件产品 3.9 实例第二部分 数据挖掘工具第4章 数据挖掘方法概述 4.1 数据挖掘方法 4.2 数据挖掘视野 4.3 数据挖掘的作用 4.4 实证数据集附录4A第5章 聚类分析 5.1 阅读全文
posted @ 2013-09-05 15:23 传说中那只猫 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 专业贷款巴塞尔2将不同于其他公司贷款的批发贷款做出了细分,并将他们统称为专业贷款。专业贷款是指单个项目提供的融资,其还款与对应的资产池或抵押品的营运情况紧密相关。对于除一项专业贷款外,对于其他专业贷款,如果银行能够满足估计相关数据的最低要求,他们即可采用公司贷款IRB法计算这类风险暴露的风险权重。然而,考虑在实际中满足这些要求还存在许多困难,第三稿还另外要求银行将这类风险暴露细分为五个档次。第三稿对各档规定了明确的风险权重。对于特定的一类专业贷款,即“高波动性商业房地产”(high volatility commercial realestate. HVCRE),有能力估计所需数据的IRB法银 阅读全文
posted @ 2013-09-05 15:21 传说中那只猫 阅读(1684) 评论(0) 推荐(0) 编辑
摘要: weka只支持4个数据类型,跟数据库对不上号,所以需要自己手动将数据库读出来的数据映射成weka支持的类型才能进行处理配置文件位置在/src/weka/experiment/DatabaseUtils.props# General information on database access can be found here:# http://weka.wikispaces.com/Databases## Version: $Revision: 5836 $# The comma-separated list of jdbc drivers to use#jdbcDriver=RmiJdbc 阅读全文
posted @ 2013-09-05 11:36 传说中那只猫 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 数据库写入操作类,执行模式在父类中定义public class DatabaseSaver extends AbstractSaver 建表方法,由写入程序调用private void writeStructure()新建配置SQL语句StringBuffer query = new StringBuffer();获取建表数据集Instances structure = getInstances();开始配置SQL语句query.append("CREATE TABLE ");表名获取并加入sql if(m_tabName || m_tableName.equals(&qu 阅读全文
posted @ 2013-09-05 11:28 传说中那只猫 阅读(302) 评论(0) 推荐(0) 编辑
摘要: weka设置数据库方法类InstanceQuery方法 public Instances retrieveInstances(String query)方法传入SQL语句数据库查询操作类instanceQuery iq = new InstanceQuery();设置数据库连接用户名iq.setUsername("sa");用户密码iq.setPassword("1234");数据库地址iq.setDatabaseURL("jdbc:sqlserver://localhost:1433;databaseName=Credit");查询 阅读全文
posted @ 2013-09-05 11:26 传说中那只猫 阅读(313) 评论(0) 推荐(0) 编辑
摘要: logistic.java建立模型函数buildClassifier(Instances train)获取测试类的实例化对象,在调用测试方法来测试传入的数据集getCapabilities().testWithFail(train);将数据集中,所有有缺失数据的记录删除,自带的清洗功能train = new Instances(train);train.deleteWithMissingClass();获取过滤器,此过滤器做缺失值填充m_ReplaceMissingValues = new ReplaceMissingValues();设定过滤器对象m_ReplaceMissingValues 阅读全文
posted @ 2013-09-05 11:23 传说中那只猫 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 构建Attribute时,将分类属性加载入hashtable,构建模型时,将用到的分类属性与hashtable中的记录进行对比,失败报错Attribute gender = new Attribute( "Weight", genderCategory);public DataObject delegator(String className, String methodName, DataObject para) throws Exception{//查找客户化表,获取客户化的类String customClassName = getCustomClass(classNa 阅读全文
posted @ 2013-09-05 11:22 传说中那只猫 阅读(258) 评论(0) 推荐(0) 编辑
摘要: svmtestClassifier m_classifier = new LibSVM();使用父类 分类器 实例化svm类ArffLoader atf = new ArffLoader();arff文件装载器装载arff分两种,第一种训练模型用的训练文件,第二种测试模型用的测试文件,这里训练文件为test,测试文件为test2atf.setFile(inputFile);arff文件装载器,第一步设置文件路径,然后使用getDataSet()方法获取文件中的数据集合,数据集合放在weka自定义的数据结构Instances中Instances instancesTrain = atf.getD 阅读全文
posted @ 2013-09-05 11:21 传说中那只猫 阅读(600) 评论(0) 推荐(0) 编辑
摘要: 访问地址批量导出的方式以下是导出无数据的模版http://localhost:8075/WebReport/ReportServer?reportlets=({reportlet:/G2200.cpt},{reportlet:/G3100.cpt},{reportlet:/G4000.cpt},{reportlet:/G4100.cpt})&format=pdfhttp://localhost:8075/WebReport/ReportServer 前半部分访问报表服务器地址,后半部分为导出报表的参数reportlets=({reportlet:/G2200.cpt},{reportl 阅读全文
posted @ 2013-09-05 11:17 传说中那只猫 阅读(2430) 评论(0) 推荐(0) 编辑