数学之美 - 读后感

数学之美读后感

数学之美

吴军,著名学者,投资人,人工智能、语音识别和互联网搜索专家

著有 《浪潮之巅》 《数学之美》 《大学之路》 《文明之光》 《硅谷之谜》 和 《智能时代》 等多部畅销书

阅读缘由

  • 公司为大数据公司,该怎么感受,如何理解用数据思维的方式
  • 由于 硅谷之谜 留下的印象,所以想通过数据处理背后的数学模型来了解数据思维

不要畏惧

  • 不需要理解里面复杂的数学公式(本人也不懂),作者结合历史人文知识,穿插生活中现象后的规律,讲得通俗易懂

  • 三论(信息论 系统论 控制论),信息时代的科学基础,也是作者推崇的信息时代变革的理论。与后视镜中的工业时代的理论,做一个比较更容易体会

    • 工业时代的科学基础,牛顿和机械思维

      • 流水生产线,把原材料从一边进,成品从另一端出。在变化不快的计划时代,具有很高的效率。通过顶层设计,利用个人的经验,把中间过程工序,一道道设计好,一环扣一环。
      • 瀑布模式,严格遵循预先计划的需求分析、设计、编码、集成、测试、维护的步骤顺序进行,对于需求的变化这将是一个灾难
         
    • 信息时代的科学基础,三论

      • 百科
      • 硅谷之谜与三论对于我的启示
      • 推崇的开发模式,注重人的交互,通信,比文档的信息传递更高效;与客户(用户)的协作,明确需求,客户与团队是一个整体,更开放的系统;快速响应需求的变化,灵活性,控制(牵强附会上去的)
         
  • 信息论,本书中很多思考方式用到了信息论

    通信六要素

    • 信息的作用
      • 消除不确定性,当现有信息不足以消除时,可能需要引入其他信息,像说的多维度
    • 现实世界人与人之间或动物与动物之间的通信,和机器间通信的联系
    • 有趣的是,不同文化的地域,却都用十进制,可能都是用十个手指计数。那有没有加上脚趾,用二十进制的呢?有,玛雅文明,后来消失了

有趣章节

  • 搜索引擎

    布尔代数 二进制运算,逻辑运算

    • crawl
      • 图论
    • index
      • 分词
    • page rank

      • 确定网页和查询相关性,TF-IDF

        Term Frequency:关键词的频率(单文本词频),一个网页上 某词出现的频率,一个词在网页上出现的频率越高,则权重越高;一个词在一个网页中的权重
        Inverse Document Frequency:逆文本频率指数,假如一个词出现的次数越频率,它的权重越低;一个词的权重
        加权求和:TF1 · IDF1 + TF2 · IDF2 + ... + TFn · IDFn 一个词权重的高低,是由其信息量决定的

        • 通用词
        • 专业词
        • 长尾词
           
  • 信息指纹

    • 哈希
      • url 匹配
    • 相似哈希,simhash
      • es 数据
    • 判断两个集合是否相同
      • 一一比较
      • 排序后,顺序比较
      • 一个放 hashtable,循环另一个集合比较
      • 生成集合指纹比较
    • 盗版追踪
       
  • 逻辑回归和搜索广告

    • 搜索广告三阶段
      • 竞价排名,类似莆田
      • 搜索词预测 + 出价 + 点击率,Google Ads,模仿者: 雅虎 Panama,百度凤巢
      • 根据网络行为推送,行为营销,用户画像
    • 预估点击率
      • 影响因素(位置,与搜索词相关性,展示时间等),逻辑回归模型,准确度
         
  • 余玄定理和新闻分类

    • 同一类新闻用词都是相似的,不同类的新闻用词各不相同
       
  • 搜索引擎反作弊

    • 尴尬的时刻,美好的 SEO,相对于搜索引擎来说却是一个作弊者
    • 失效的 SEO,外链
    • 反作弊软件的学习进步,使得 SEO 难度更大,使得大批以此为利益的团体甭离,SEO 成本上升(导致选择 SEM)
    • SEO,与搜索引擎猫捉老鼠的游戏,随着难度成本的上升,以及移动互联网时代搜索引擎的弱化,未来何去何从

背后的人

  • 信息论,克劳德·艾尔伍德·香农
  • 现代语音识别和自然语言处理,弗里德里克·贾里尼克
  • 隐含马尔可夫模型,安德烈·马尔可夫
  • 布尔代数,乔治·布尔
  • 自然语言处理的教父,米奇·马库斯
  • 维特比算法,安德鲁·维特比,高通创始人之一
  • 美女,海蒂·拉玛尔
  • Google AK-47,阿米特·辛格

数据思维

数学模型

  • 由经验决策,到数据决策,通过数据消除不确定性
  • 以日历及二十四节气为例,是怎么推算出来的,也就是记录数据(大数据),发现规律(数学),然后验证(意义)
  • 系统性能调优,怎么定位问题,通过记录的耗时分布进行分析(通过经验判断进行分析)
  • 还不清晰,还没想明白,未完待续

 

 

 

posted @ 2018-03-09 23:23  Leaf.Duan  阅读(477)  评论(0编辑  收藏  举报