2006 Tech.Ed 第二天见闻

        公司的运动会下周六举行,我报了一个800米跑,好久没有跑这么长的距离了,所以这个星期下班后一直跑一跑,昨天也不例外,虽然从九华山庄回到市区已经8点多了,可我还是在地质大学里面跑了五圈,真是够累的,不过,和听一天课相比,这就算轻松了。不知道一起去听课的朋友们,是否有此同感。课程涉及面很广,大家的选择也很多,所以我的个人感觉是:要有所选择,对一到两个方向重点听一下这样也不错。
 
         今天我重点听的还是数据分析与管理平台方面的课程。下面把其中的两个课程向大家介绍一下。

        第一个是唐朝晖博士的SQL Server 2005之数据挖掘。主要印象深刻的有:

        1.数据挖掘:又称信息挖掘,是用自动或半自动的方法在数据中查到潜在的,有价值的信息和规则。数据挖掘技术来源于数据库,统计和人工智能。它有五个步骤:分析问题>>整合数据>>建立模型>>理解规则>>预测未来
         
        2.数据挖掘包含复杂的算法,但它的最高境界是让用户感觉不到内在的复杂性,就像Google一样,它也是一个数据挖掘。
        3.Sql Server数据挖掘的四个关键信息:嵌入式数据挖掘,集成平台(可以和关系型,OLAP,DTS和报表技术精密集成),高端分析(挖掘算法,增强的可视化控件),与ISVs联盟(拓展市场,把蛋糕做大,统一基于DMX和XML/A的DM工业标准)。
         4. DMX(数据挖掘表达式) 简单易用,对SQL熟练的人,五分钟学会。
         5. Sql Server现有的一些算法:决策树,聚类,时间序列,序列聚类,关联,Naive贝叶斯,神经网络(一个也不懂啊!)。
         6. www.SqlServerDataMining.com上有一些现有的案例,比如:唐博士给我们举例了使用关联算法预测人们喜欢电影的倾向。

         如果说唐博士给人一种科学家的感觉,那么杨大川博士则就像一个布道者。他的演讲更加清晰,易懂。他的课程是:微软新武器——挑战数据的价值极限。其中下列内容印象深刻。
        
        1. 现在已经进入数据时代。这是一个数据分析的时代。
        2. BI = Data >> Information,它通常被理解为将企业中现有的数据转化为信息和知识,帮助企业做出明智的业务经营决策的工具。所以BI有两个阶段:数据整合(ETL,DW,OLAP)和决策支持(DSS)。
        3. 数据仓库是一个关系型结构的模型
        4. 数据仓库相比,对于包含汇总数据的报表,其实更适合从OLAP来出。和OLAP相比,数据仓库更适合做数据挖掘模型的数据源。
        5. ProClarity的OLAP展现不错,Sql Server Intergration Services作为ETL工具在实际项目中还蛮好用的。
        6. 目前微软的数据挖掘在终端客户展现方面还需要二次开发或采用第三方插件。
        7. BI认识的两个误区(本来还有一些,但想不起来了):
             1)商务智能和商务的区别:热狗和狗的区别
             2)何为CI。CI=AI+BI,这里的AI指人,BI要用好,人是关键,这种人必须是精通业务的分析师(估计将来一定很紧俏,呵呵)。
        8. 关于BI的更多内容,可以看看网上的WebCast(我查了一下,最近八月份有很多啊!)。

       听完了课,我们来到五楼,休息了一下,每人消灭了两根烤肠,味道的确不错,就像两位老师的讲课,内容丰富,给人方向,让人回味。可惜小吃票太少了,每人只能吃到两根。

       欢迎的晚会热闹而美味,但我们没有过多逗留,八点不到我们就开始回去了。由于明天有事情,所以不能来了。所以再给大会再提一点意见:动手实验室机器太少了,希望能多一些,上网区的电脑的也太少了。不知大家感觉如何? 
posted on 2006-09-23 01:27  microsheen  阅读(2044)  评论(0编辑  收藏  举报