导航类查询词的收集方法
导航类的查询是指那些有明确寻址需求的查询,如“优酷网”或“优酷”等。目前很多互联网用户很可能只能记得百度等搜索引擎的网址,或把百度设置为首页,要进别的网站时,一般通过搜索来解决。
在搜索引擎中,对于导航类的查询,如果返回的第一条搜索结果不是目标网站的话,对用户的搜索体验是巨大的伤害。比如搜索“中国银行”,如果返回的不是中国银行的网站,而是某钓鱼网站的话,那很有可能对用户造成非常的伤害。因此,很有必要收集这些导航类的查询词和其对应的网址。
如何收集这类词呢?目前想到的方法是人工编辑的网站目录,如百度网址大全,雅虎网址大全。从这些人工编辑的网址目录中找出这类寻址类的query和对应的url,然后由人工的方法对query进行变换(一般是删除某些词,比如腾讯网和腾讯其实都应该算寻址类的query)。
但是其实最好是能做到寻址类query的自动挖掘,目前没有想到比较好的办法,大家有的好的方法,欢迎留言进行讨论,谢谢。

本文基于署名 2.5 中国大陆许可协议发布,欢迎转载,演绎或用于商业目的,但是必须保留本文的署名小橋流水(包含链接)。如您有任何疑问或者授权方面的协商,请给我发邮件。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· [AI/GPT/综述] AI Agent的设计模式综述