摘要:
第十三章 Google AK-47的设计者——阿米特·辛格博士 简单哲学 第十四章 阅读全文
摘要:
第十二章 有限状态机和动态规划——地图与本地搜索的核心技术 智能手机的定位和导航功能,只有三项关键技术: ①利用卫星定位 ②地址的识别 ③根据用户输入的起点和终点,在地图上规划最短路线或者最快路线。 1 地址分析和有限状态机 有限状态机是一个特殊的有向图,它包括一些状态(节点)和连接这些状态的有向弧 阅读全文
摘要:
第十一章 如何确定网页和查询的相关性 如今影响搜索引擎质量(除了点击数据之外)的四大类: 1.完备的索引 2.对网页质量的度量 3.用户偏好 4.确定一个网页和某个查询的相关性的方法 1 搜索关键词权重的科学度量TF-IDF 度量网页和查询的相关性,有一个简单的方法,就是直接使用各个关键在网页中出现 阅读全文
摘要:
第十章 PageRank Google的民主表决式网站排名技术 1 PageRank算法的原理 核心思想:如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。 对于来自不同网页的链接区别对待,来自排名高的网页的链接更可靠,给予高权重。 网页排名的计算: pagerank 阅读全文
摘要:
第九章 图论和网络爬虫 1 图论 每座桥恰巧走过一遍并回到原出发点? 关于图的最重要的一种算法是遍历算法,也就是如何通过弧访问图的各个节点。 广度优先搜索(Breadth-First Search,BFS):要尽可能‘广’地访问与每个节点直接连接的其他节点 深度优先搜索(Depth-First Se 阅读全文
摘要:
第七章 贾里尼克和现代语言处理 总结:学习是一辈子的事情。 第八章 简单之美——布尔代数和搜索引擎 ⭐搜索引擎原理: ①自动下载尽可能多的网页 ②建立快速有效的索引 ③根据相关性对网页进行公平准确的排序 1 布尔代数 文献检索和布尔运算的关系:比如要找关于原子能,并不想知道原子弹。可以写这样一个查询 阅读全文
摘要:
第六章 信息的度量和作用 1 信息熵 从一个角度可以认为信息量就等于不确定性的多少。 信息熵(Entropy),一般用符号H表示,单位是比特。 熵的定义: 变量的不确定性越大,熵也就越大。 文中有个关于冗余度的:重复的内容很多,信息量就小,冗余度就大。 2 信息的作用 一个事物内部会存有随机性,也就 阅读全文
摘要:
第五章 隐含马尔可夫模型 1 通信模型 通信的本质是一个编解码和传输的过程。 典型的通信系统: 包含雅格布森通信的六个要素:发送者(信息源),信道,接收者,信息,上下文和编码。 其中S1,S2,S3,... 表示信息源发出的信号,比如手机。O1,O2,O3,...是接收器接收到的信号。通信中的解码就 阅读全文
摘要:
第四章 谈谈分词 1 中文分词方法的演变 最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。 随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。 郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出 阅读全文
摘要:
第三章 统计语言模型 1 用数学的方法描述语言规律 普遍描述:假定S表示某一个有意义的句子,由一连串特定顺序排列的词w1,w2,...,wn组成,(这里应该是特征列表)这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,也就是数学熵上所说的S的概率P(S)。 马尔可夫假设后, 2 延伸阅读: 阅读全文