数据分析入门-导论-如何亲手从0到1建立一个学科

最近在学习数据分析,在这里分享一下个人的学习经验。希望对大家有所帮助。

我理想的学习效率是这样的:

数据分析入门-导论-如何亲手从0到1建立一个学科

实际上的学习效率是这样的:

数据分析入门-导论-如何亲手从0到1建立一个学科

电影里的改变都是一蹴而就,顺利完美,而现实往往是走一步,退半步,跌跌撞撞,把事情做到60分就谢天谢地了.

不过,最后改变世界的也是这些跌跌撞撞,一步步前行的人。

数据分析是什么

最近要准备寒假的实习,准备找数据分析相关的工作.学习了有一个学期,最近准备把学习的内容整理一下,写给入门者,希望如果有人对这个职业方向感兴趣,可以参考,说不定可以少走一点弯路.

根据学习的总结,我觉得这样定义更加合适:

数据分析是以统计学 、科学方法论 、 商业分析框架、计算机软件和语言为工具 ,通过将实际问题转化为数据问题,并加以解决的一套知识体系。

数据分析入门-导论-如何亲手从0到1建立一个学科

七天入门数据分析

这系列的文章,目前计划写7篇.

七篇的结构是这样的:

  1. 数据科学世界观
  2. 数据分析框架概述
  3. 框架详解-数据分析的数据收集与预处理
  4. 框架详解-数据分析的问题分析
  5. 框架详解-数据分析的模型空间建立和模型选择
  6. 框架详解-数据分析的模型优化
  7. 数据分析边界-数据分析不能解决什么?

我现在想做的,不是写几篇谈资性质的文章,让大家看了之后,发现'哇,数据分析好难(^-^)V'或者'靠,数据科学也不过如此'我想做的是去梳理出一个框架体系,不一定完美,但是要对前人有一个交代,对后来人有一些长远的意义.

太史公曰:著书立说 成一家之言.

虽然达不到太史公的水平,但是可以有一样的心愿.

一个严谨的学科体系是如何建立的

那么第一个问题来了,一个严谨学科的体系是怎样建立的?我们只有知道了一个严谨的学科是怎么来的,才知道如何去建立一个严谨的体系.我们不妨来看看,世界上最严谨的学科体系-数学是如何梳理自己的学科脉络的.我们普通人可能觉得数学不过就是按照实际需要分类吗?研究概率的叫做概率论,研究统计的叫数理统计,研究图形的叫几何,研究数字的叫做代数,等等.但是,这只是我们的想象,真正的数学学科分类是基于集合论的.具体是这样的:1.首先建立一个公理体系:数学的底层公理体系大多是描述运算律的,要尽可能抽象.举几个例子:比如像a+b=b+a,这算公理,axb=b×a,这也是公理,a+0=a,ax1=a,等等,这就叫代数公理。还有次序公理,比如像0<1,或者是a<b,b<c,那么a<c,等等,还有各种其他的逻辑性的公理在里面,咱们不具体说了.2.然后就根据数学对象具体满足哪几条公理,来给数学对象的结构分类。比如说:假如一部分数学知识满足A1,A2,A3和B1公理,我们就叫它代数结构。假如满足A1,A2,A3,C1,C2的,我们就叫它拓扑结构。而且有的时候,这种数学对象只有一种结构,有的时候是多种结构同时满足,你比如质数,它就只有序的结构,而矩阵就只有代数结构,整数集合没有拓扑结构,像实数集合就同时拥有三种结构,代数、顺序、拓扑这三种结构,就这样分类。

数据分析入门-导论-如何亲手从0到1建立一个学科

3.研究一个具体问题的时候,先研究他的集合结构,然后找到他的对应领域,然后调用这个领域的知识解决他.数学上把这个过程叫做"寻找同构问题".到这里,大家会问为什么我们不直接解决呢?确非要建立同构解?因为往往数学难题,之所以叫做难题,就是因为在当下的知识背景下,实在是难以解决,就好像一把很难开的锁,我们是不可能在锁上面直接找到钥匙吧?如果能找到我们就直接开了,我们必须要去别的地方寻找钥匙.在新的视角下,从前完全不是一个领域的对象,就有可能出现在同一个结构中。比如线性代数跟初等几何这两个东西就属于同一种结构,简称同构。比如下面的这张图,就是一张线性代数的典型运算和初等几何的典型运算,你可以对比一下,在没有集合论出现之前,你很难发现其实这两个东西是同一种结构的。

数据分析入门-导论-如何亲手从0到1建立一个学科

世纪难题,费马大定理就是通过这样的方式解决的.

最后我们总结一下,一个严谨的学科的建立过程

1 建立公理体系 2 根据公理体系演绎整个学科知识 3 面对具体问题,寻找符合的公理或者模型

其实这种方法也是现代科学的根基,源自欧几里得<几何原本>.现代科学的另一个根基是实验.

我们为什么要如何清晰/抽象的定义一个概念

大家在现实生活一定会遇到这些时候:某某的本质是什么?这个过程实际上就是我们在试图清晰的定义一个概念.我们在建立一个学科体系的时候,另一个关键是要使用抽象语言描述对象,而不是自然语言.为什么呢?好好的说人话不好吗?为什么要一堆符号,看着像天书?

我们需要从自然语言的诞生说起.举个栗子,比如老师布置作业,今天大家把练习册上第998页的第三题做一下,就是那道关于为什么我最帅的题,大家一定要好好做,这道题很重要,不会做的话会影响世界和平,人们幸福,巴拉巴拉.

大家发现没有,这一大段话,只需要用 一个公式表示就可以: 作业= 练习册.p998.3

啊,那为什么我们自然语言表达的时候,我们要说这么多没用的呢?这里又涉及一个信息论的概念,信息冗余=低损失的全面的传播.我们通过说很多废话,保证交流对象,尽可能的理解我们的意思.

但是这种习惯放到 科学知识上就非常尴尬了,科学追求的是凝练,概括,抽象,所以要尽可能用精确的语言描述规律.

所以我们在建立学科体系的时候,都尽可能重新定义语言使用的规范.

维特根斯坦在他的<哲学研究>里,描述过一个严密的语言系统,只应该包含俩类语句:X具有Y性质 (y=f(X))A,B属于C({A,B}属于C)

我们可以作为一个参考.

总结

这次,首先给大家预告了我的写作计划:7天入门数据分析

  1. 数据科学世界观
  2. 数据分析框架概述
  3. 框架详解-数据分析的数据收集与预处理
  4. 框架详解-数据分析的问题分析
  5. 框架详解-数据分析的模型空间建立和模型选择
  6. 框架详解-数据分析的模型优化
  7. 数据分析边界-数据分析不能解决什么?

其次,介绍了一下我接下来写作的原则以及为什么要这样做

  1. 公理-演绎-模型-同构
  2. 语言的严谨/精确/抽象

最后讲一个小故事-长使英雄泪满襟

大家可能会问 是谁创立了数学集合论这样的公理体系的?布尔巴基学团-数学历史上,甚至是科学历史上,最伟大的科学团体.

其实这是一组有情怀的法国年轻数学家的团体,他不是一个人,而是一个组织。1935年的时候,由9个差不多都是来自法国高等师范学校的数学家们组成的。

数据分析入门-导论-如何亲手从0到1建立一个学科

那个时候的背景是这样的,法国曾经在达朗贝尔、拉格朗日、拉普拉斯,到后来的柯西那个年代,在数学上辉煌灿烂过100多年,这咱们之前提过,数学也曾经是法国最优秀的人从事的事业,也是法国的国学,也是法国的传统文化。

但是在一战中损失太惨重了,也不知道法国军队是怎么考虑的,其他国家的数学家就算是参军,主要去的也是通讯部门,或者是至少跟数学能沾点边的,能发挥出数学家优势的部门,比如说去算算炮弹的弹道。但是,法国不一样,法国年轻的数学家绝大多数去了前线,都是冲锋陷阵的士兵,在枪林弹雨中,子弹打中了躯干差不多就是死,所以一场大战之后,整个法国数学的生力军就全被消灭了。

就在1935年,法国高校的数学家们,有这几个人,亨利嘉当、让·迪厄多内、安德列韦伊、克劳德·谢莱瓦、德瓦萨特等等等等,一共9个人,他们就商量,

你看,现在的教授根本就不了解最近30年的数学进展,教科书甚至都是100年前用过的,我们要复兴法国的辉煌,那么切入点就是我们一起动手编一套涵盖所有数学基础,尤其是包含了最近30年数学进展的教科书,这套书要尽量全面,照顾从学生到教学部门,到研究者这三方,而且一起步,大家的计划就是宏伟的,计划这套教科书要用25年的时间写完,大致把大纲列出来,总页数超过1200页。而且,我们这个组织一定不能公开身份,我们就以布尔巴基为署名。成员之间身份完全平等,谁也别打算从中出名渔利,这是一件重振法国辉煌的事,大家众志成城地就开始了。

《数学原理》是一册一册地出版,数学界谁都不知道布尔巴基住在哪儿,到底长什么样。

数据分析入门-导论-如何亲手从0到1建立一个学科

每次读到这个故事,面对这样的前人,长使英雄泪满襟.我们一方面知道,我们之所以能走到今天是站在无数的这样的前人的肩膀上.我们所能做的也不过是在这些伟人基础上的修修补补,甚至连修修补补都算不上,只是把前人的智慧带到人间而已.希望我们所做的这些,对这些前人有意义。

欢迎关注我的个人公众号:小祁同学的成长故事。里面还有很多这样的文章哦。

posted @ 2019-01-06 17:40  Faddy  阅读(866)  评论(1编辑  收藏  举报