摘要: 第十三章 Google AK-47的设计者——阿米特·辛格博士 简单哲学 第十四章 阅读全文
posted @ 2018-04-24 21:32 方玲是个小可爱 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 第十二章 有限状态机和动态规划——地图与本地搜索的核心技术 智能手机的定位和导航功能,只有三项关键技术: ①利用卫星定位 ②地址的识别 ③根据用户输入的起点和终点,在地图上规划最短路线或者最快路线。 1 地址分析和有限状态机 有限状态机是一个特殊的有向图,它包括一些状态(节点)和连接这些状态的有向弧 阅读全文
posted @ 2018-04-24 21:27 方玲是个小可爱 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 第十一章 如何确定网页和查询的相关性 如今影响搜索引擎质量(除了点击数据之外)的四大类: 1.完备的索引 2.对网页质量的度量 3.用户偏好 4.确定一个网页和某个查询的相关性的方法 1 搜索关键词权重的科学度量TF-IDF 度量网页和查询的相关性,有一个简单的方法,就是直接使用各个关键在网页中出现 阅读全文
posted @ 2018-04-24 21:26 方玲是个小可爱 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 第九章 图论和网络爬虫 1 图论 每座桥恰巧走过一遍并回到原出发点? 关于图的最重要的一种算法是遍历算法,也就是如何通过弧访问图的各个节点。 广度优先搜索(Breadth-First Search,BFS):要尽可能‘广’地访问与每个节点直接连接的其他节点 深度优先搜索(Depth-First Se 阅读全文
posted @ 2018-04-24 21:25 方玲是个小可爱 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 第十章 PageRank Google的民主表决式网站排名技术 1 PageRank算法的原理 核心思想:如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。 对于来自不同网页的链接区别对待,来自排名高的网页的链接更可靠,给予高权重。 网页排名的计算: pagerank 阅读全文
posted @ 2018-04-24 21:25 方玲是个小可爱 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 第七章 贾里尼克和现代语言处理 总结:学习是一辈子的事情。 第八章 简单之美——布尔代数和搜索引擎 ⭐搜索引擎原理: ①自动下载尽可能多的网页 ②建立快速有效的索引 ③根据相关性对网页进行公平准确的排序 1 布尔代数 文献检索和布尔运算的关系:比如要找关于原子能,并不想知道原子弹。可以写这样一个查询 阅读全文
posted @ 2018-04-24 21:24 方玲是个小可爱 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 第六章 信息的度量和作用 1 信息熵 从一个角度可以认为信息量就等于不确定性的多少。 信息熵(Entropy),一般用符号H表示,单位是比特。 熵的定义: 变量的不确定性越大,熵也就越大。 文中有个关于冗余度的:重复的内容很多,信息量就小,冗余度就大。 2 信息的作用 一个事物内部会存有随机性,也就 阅读全文
posted @ 2018-04-24 21:22 方玲是个小可爱 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 第五章 隐含马尔可夫模型 1 通信模型 通信的本质是一个编解码和传输的过程。 典型的通信系统: 包含雅格布森通信的六个要素:发送者(信息源),信道,接收者,信息,上下文和编码。 其中S1,S2,S3,... 表示信息源发出的信号,比如手机。O1,O2,O3,...是接收器接收到的信号。通信中的解码就 阅读全文
posted @ 2018-04-24 19:19 方玲是个小可爱 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 第四章 谈谈分词 1 中文分词方法的演变 最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。 随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。 郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出 阅读全文
posted @ 2018-04-24 19:15 方玲是个小可爱 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 第三章 统计语言模型 1 用数学的方法描述语言规律 普遍描述:假定S表示某一个有意义的句子,由一连串特定顺序排列的词w1,w2,...,wn组成,(这里应该是特征列表)这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,也就是数学熵上所说的S的概率P(S)。 马尔可夫假设后, 2 延伸阅读: 阅读全文
posted @ 2018-04-24 19:14 方玲是个小可爱 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 第二章 自然语言处理——从规则到统计 这一章开头这句话:字母,文字,数字是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。我们表达一个意思要通过语言表达出来,就是用这种语言的编码方式表示出来,结果就输出一串文字。别人懂这门语言的编码方式,就会理解。这里说的输出一串 阅读全文
posted @ 2018-04-24 19:11 方玲是个小可爱 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 数学之美 第一章 文字和语言 vs 数字和信息 1 信息 通信的原理就是这三个步骤,本质上是一致的,只不过今天的实现形态发生了变化。更技术,更高大上了。 2 文字和数字 语言的越来越丰富,词汇的越来越多,人无法记住所有产生的词汇,所以文字就此诞生,是为了高效记录信息的诉求。 文字也如同语言最初一样, 阅读全文
posted @ 2018-04-24 18:59 方玲是个小可爱 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 第十章 K最近邻算法 1 K最近邻(k-nearest neighbours,KNN)——水果分类 2 创建推荐系统 利用相似的用户相距较近,但如何确定两位用户的相似程度呢? ①特征抽取 对水果分类来说:个头和颜色就是特征 再根据这些特征绘图,然后根据毕达哥拉斯公式(欧氏距离呗)计算距离 对于推荐系 阅读全文
posted @ 2018-04-24 14:39 方玲是个小可爱 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 第九章 动态规划 1 动态规划——背包问题 公式: 练习9.1 假设你还可偷另外一件商品——MP3播放器,它重1磅,价值1000美元。你要偷吗? 要。在这种情况下,你可偷来MP3播放器和iPhone和吉他,总价值为4500美元 行的排列顺序发生变化时结果如何?答案没有变化。也就是说,各行的排列顺序无 阅读全文
posted @ 2018-04-24 13:59 方玲是个小可爱 阅读(2611) 评论(0) 推荐(1) 编辑