2011年7月13日

OLE DB for DM实践 —— 用数据挖掘实现交叉销售(转)

摘要: OLE DB for DM实践 —— 用数据挖掘实现交叉销售 我们在访问一些销售网站时,常常会碰上这种情况:浏览某商品信息的同时,网页上会打出促销广告,购买此商品加另一商品可以享受折扣,就像下面图片中的那样。实现这种功能关键步骤是找到商品间的关联规则——我们会向购买了童车的客户推荐儿童玩具,而不会推荐汽车这种与童车毫不相干的商品。不过一个超市或网站上通常会销售上千种商品,通过人去识别商品相关性是不可能的,所以要使用计算机进行模式识别,计算机找到的规则有些是可预知的,但未知的规则更有意思,比较经典的是沃尔玛的尿布和啤酒故事(也有人说这个案例是编造的)。 这里我做了个购物页面,模拟一个交叉销售的过 阅读全文

posted @ 2011-07-13 12:48 满汗全席 阅读(424) 评论(0) 推荐(0) 编辑

海量数据处理优化方案(转)

摘要: 海量的数据处理问题,这是一项艰巨而复杂的任务。原因有以下几个方面:一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,在海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题。尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。二、软硬件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就是合理的使用工具,合理分配系统资源。一般情况、如果处理的数据过TB级,小型机是要考虑的,普通的机子如 阅读全文

posted @ 2011-07-13 10:28 满汗全席 阅读(322) 评论(0) 推荐(0) 编辑

(转)海量数据优化

摘要: 数据库优化查询计划的方法数据库系统是管理信息系统的核心,基于数据库的联机事务处理(OLTP)以及联机分析处理(OLAP)是银行、企业、政府等部门最为重要的计算机应用之一。从大多数系统的应用实例来看,查询操作在各种数据库操作中所占据的比重最大,而查询操作所基于的SELECT语句在SQL语句中又是代价最大的语句。举例来说,如果数据的量积累到一定的程度,比如一个银行的账户数据库表信息积累到上百万甚至上千万条记录,全表扫描一次往往需要数十分钟,甚至数小时。如果采用比全表扫描更好的查询策略,往往可以使查询时间降为几分钟,由此可见查询优化技术的重要性。 在应用项目的实施中发现,许多程序员在利用一些前端数据 阅读全文

posted @ 2011-07-13 10:07 满汗全席 阅读(312) 评论(0) 推荐(0) 编辑

导航