《数学之美》读书笔记

数学之美

一,文字和语言 数字和信息

  • 语言研究的两种方向:语料,语法
  • 犹太人抄圣经的校验数

二 自然语言处理 从规则到统计

  • 基于统计的句法分析

三 统计语言模型

  • 一个句子是否合理,取决于其存在的可能性。
  • 统计语言的二元模型
  • 马尔可夫链
  • 高阶语言模型
  • 零概率问题:古德图灵估计公式

四 谈谈中文分词

  • 查字典法
  • 统计语言模型方法:分词后句子出现的概率最大
  • 动态规划 维特比译码
  • 英文手写体的识别
  • 分词的层次概念

五 隐含马尔可夫模型

  • 训练算法(鲍姆-韦尔奇算法)
  • 解码算法(维特比算法)
  • 自然语言处理、机器学习

六 信息的度量和作用

  • 信息熵
  • 条件熵 相关搜索
  • 互信息 熵与条件熵的差异。解决词义的二义性(亚让斯基)
  • 相对熵 衡量两个正值函数的相似性,度量两个随机分布的差异性,比较两词是否同义,比较文章是否同类,TF-IDF

七 贾里尼克和现代语言处理

  • bcjr算法

八 布尔代数和搜索引擎的索引

  • 用一个很长的二进制表示一个关键字是否出现在每篇文献中。多个关键词就是求与。

九 图论和网络爬虫

  • 广度优先和深度优先。
  • 优先级队列
  • 页面分析 URL提取,模拟脚本
  • hash记录

十 pagerank

  • 一个网页的排名=所有指向这个网页的其他网页的权重之和。
  • 矩阵相乘,迭代。
  • 稀疏矩阵。

十一 确定网页和查询的相关性

  • tf-idf 词频/逆文本频率指数
  • 关键词概率分布的交叉熵

十二 有限状态机和动态规划

  • 地址识别
  • 基于概率的有限状态机
  • 离散的马尔可夫链

十三 阿米特辛格

  • 简单有效

十四 余弦定理和新闻分类

  • 新闻的特征向量 关键词的tfidf
  • 新闻相似性度量 余弦定理 夹角
  • 新闻的分类 聚类

十五 矩阵运算和文本处理分类问题

  • 矩阵的奇异值分解 同时完成关键词分类和文章分类
  • 奇异值分解的并行算法

十六 信息指纹及其应用

  • 哈希存储
  • 判定集合相同 和基本相同 垃圾邮件识别
  • 网页比对
  • 相似哈希
  • 视频关键帧比对

十七 密码学的数学原理

  • 均匀分布 统计独立
  • 公开密钥 大素数

十八 搜索引擎反作弊问题

  • 噪声清除 抗抗干扰
  • 余弦定理判别网站的出链向量
  • 图论识别互相链接的clique

十九 数学模型的重要性

  • 形式简单
  • 数据积累
  • 不要乱打补丁修正

二十 最大熵模型

  • 保留全部不确定性,风险降到最低
  • 概率分布的信息熵最大
  • 完美用于词性标注 句法分析
  • 训练方法:通用迭代算法gis 改进迭代算法iis 吴军的改进

二十一 拼音输入法的数学原理

  • 汉字的信息熵 上下文相关性
  • 语言模型解决一音多字
  • 拼音转汉字 隐性马尔可夫模型 有限状态机

教父马库斯

  • ldc语料库
  • 柯林斯的自然语言文法分析器

二十三 布隆过滤器

  • 二进制向量加随机映射函数
  • 快速 省空间
  • 有误判概率
  • 用于垃圾邮件识别

二十四 贝叶斯网络

  • 马尔可夫链的扩展
  • np完备问题
  • 训练
  • 主题词分类
  • rephil

二十五 条件随机场和句法分析

  • 拉纳帕提 括括号 句法分析
  • 条件随机场 扩展的隐含马尔可夫模型 考虑上下文
  • 利用边缘分布来训练模型
  • 浅层句法分析

二十六 维特比算法

  • 动态规划算法
  • 最短路径问题
  • 海蒂 拉玛尔 cdma
  • 高通创始人

二十七 文本自动分类问题 期望最大化算法

  • 应用聚类算法
  • em算法 期望值计算 最大化过程
  • 局部最优解

二十八 逻辑回归和搜索广告

  • 推送最有可能点击的广告,而非出价最高
  • 逻辑回归模型
  • 一层神经网络
  • 预估点击率

二十九 GOOGEL云计算

  • MapReduce
posted @ 2013-10-30 21:27  公爵  阅读(269)  评论(0编辑  收藏  举报