搜索技术(2)
自然语言处理
基于规则
基于统计
统计语言模型
中文分词
梁南元--查字典
郭进--统计语言模型
Basis Technology 通用分词器
葛显平、朱安
隐含马尔科夫模型
信息熵
贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特
统计语音识别和自然语言处理
雅让斯基、布莱尔
阿米特.辛格
搜索引擎:自动下载尽可能多的网页---》建立快速有效的索引---》根据相关性对网页进行公平准确的排序
搜索原理:下载----》索引-----》排序
布尔代数:George Boole:与、或、非
莱布尼兹
图论:网络爬虫:遍历
欧拉----图论
DFS:深度优先搜索、广度优先搜索
哈希表
如何构建一个网络爬虫?----》如何在有限时间里最多地爬下最重要的网页?
网络爬虫:分布式系统:成千上万的服务器
浏览器内核工程师---》网络爬虫解析程序
网页排名技术
PageRank:
网页链接、承认和依赖
二维矩阵相乘
稀疏矩阵计算
2003:MapReduce
整个互联网--整体--系统论
相关性:网页内容与查询语句、网页之间的联系
查询与内容相关性
关键词的频率:单文本词频:Term Frequency
萨尔顿 Salton IDF
地图和本地搜索:有限状态机和动态规划
地址匹配技术、有限状态机
有限状态机:AT&T:莫瑞、皮耶尔、瑞利
全球导航和动态规划(Dynamic Programming)
寻找全程最短路线---》寻找局部最短路线
辛格、马特.克茨、马丁.柯斯尔基
作弊问题:Spam
乌迪.曼波、费尔南多.皮耶尔
密码学
凯撒大帝
亚德丽:独臂海盗:中国黑室
RSA:李维斯特Rivest、沙米尔Shamir、阿德尔曼Adleman
香农:信息论,信息检索,现代密码学
冯诺依曼:现代电子计算机、博弈论
搜索引擎反作弊
搜索引擎优化者、SEO
余弦距离、余弦定理
最大熵原理、最大熵模型
柯林斯
布莱尔
马尔科夫链:贝叶斯网络
主题、概念、关键词:Phil Cluster
博客版权: 本文以学习、研究和分享为主,欢迎转载和各类爬虫,但必须在文章页面明显位置给出原文链接。 如果文中有不妥或者错误的地方还望高手的您指出,以免误人子弟。如果您有更好的建议,不如留言一起讨论,共同进步! 再次感谢您耐心的读完本篇文章。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库