议程
- 概述
- 检索词
- 用户的信息需求
- 网页的自有信息
- 网页的附属信息
- 相关性的计算框架
概述
- 相关性的表象
- 相关性的真实意义
- 相关性涉及的因素
- 检索词
- 用户信息需求
- 网页自有信息
- 网页附属信息
- 检索结果的显示方式
- 网页与普通文本的不同:异质性
- 来源不单一
- 用途不单一
- 产生方式多样化
- 手工及发布系统
- 动态与静态
- 时效性:不同时间产生
- 动态性:可随时间变化
- 欺骗与造假
检索词
- 语义
- 信息格式
- 信息类别
- 研究信息
- 商品及服务信息
- 宗教文化
- 娱乐信息
- 新闻
- 个人信息
- 检索词格式
- 数值
- 布尔运算(AND, OR, NOT)
- 特殊语法(网站检索,类别检索,filetype,linkto)
- Rank Query
检索词 - 相关性处理
- 实体名的判定用于网站首页加权
- 检索词分类用于与网站网页分类结合加权
- 信息类别的分类与统计
- 行业与地域的分类与统计
- 检索格式的分析
- 网页分类两种体系
- 按网页结构信息分类(主页,频道页,检索页,错误页,租用页…)
- 按网页内容主题分类(体育,保健,娱乐,教育..)
用户的信息需求
- 检索任务的多样性
- 确定的特定信息的查询
- 知识获取式的浏览
- 目的不明确的浏览:在过程中形成目的
- 检索词的语义多样性
- 检索范围的不确定性
- 检索成功的标准不一
- 实体名,有特定网站,- 导航型查询
- 实体名,无特定网站,有相关网站 - 事务型查询
- 一般信息,无网站信息,许多网页提及 - 信息型查询
- 一般信息,无网站信息,很少网页提及 - 信息型查询
- 个人知识结构与兴趣
- 个人的信息精确性和多样性要求程度
用户的信息需求- 相关性设计
- 结果首页尽量显示多个类型的网页
- 功能,多分类和垂直搜索结果整合设计
- 个性化排序设计
- 检索日志的后台分析
- 用户行为数据挖掘
网页的自有信息(属性)
- 文本信息:字,词,短语,句子,段落,篇章
- 文本特征信息
- 结构信息
- 导航(一级导航,二级导航。。。)
- 广告(文字链,banner)
- 图片
- 引用(博客,论坛),
- 版权说明等等
- 语义信息
- 文章类型:综述/细节,新闻,科技与研究,个人,特种文件链接
- 地域信息
- 行业信息
- 语种信息
网页的自有信息 - 相关性设计
- 切词一致性与准确性
- 正文内容的歧义消解,未登录词识别
- 查询词切分和正文切分的一致性问题处理
- 文本特征提取与权重指定
- 标题的准确性
- 标题的真实性
- 标题长度截取
- 标题验证去除人工错误
- 标题作弊判别
- 无正文的标题处理
- 正文的准确性
- 广告文字
- 网页模板文字
- iframe处理
- js 内容处理
- 正文的真实性
- 文章长度的调整系数
网页的自有信息 - 相关性设计
- 结构信息提取与处理
- 首页和频道首页的识别和标记,将使用网站PR
- 导航区的统计,识别和标记
用于首页识别,链接将不参与PR及外部锚文本的计算 - 网站附属页的统计,识别和标记
赋予网站相关的PR, 链接将不参与PR及外部锚文本的计算 - 广告链接的统计,识别和标记,将不参与PR及外部锚文本的计算
- 内容分析
- 通过特征统计结合手工方式进行网站分类
- 文章类型信息:新闻页的特殊标记
- 地域信息
- 行业及其他分类信息
- 中英文比例调整
网页的附属信息(属性)
- 网页本身的附属信息
- URL:长度与级数,动态与静态
- 产生时间
- 网页文件大小
- 可连接程度
- 内容的稳定性:
- 所属域名及网站特性
- 网页由环境所产生的附属信息
- 在网站内的重要性:首页,频道,外部被链接数量
- 全局权威性:被别人的认可程度
- 时效性:距今时间
- 真实性:实际内容信息与文本和附属信息的吻合度
- 重复性:与其他网页内容的重合度
- 信息内容和质量:别人对内容的认可程度
网页的附属信息-相关性处理
- 时间信息参与排序
- 新闻页的倒排: 强影响
- 网页的时间因素:弱影响
- 不影响首页和频道首页
- 连通率与更新率参与排序
- 网站特性
- 网站分类与检索词的吻合提高相关性
- 网站真实性参与相关性计算:
- 作弊连接网站的黑名单(Link Farm)
- TrickRank
- 网站重要性:
- 网站DR(Domain Rank)
- Block PR
- 计算站内PR,网站分别计算
- 计算站外PR,不考虑站内链接
- 排重和保留
- 镜像列表: PR和外部锚文本的传递
- 首页排重规则
- 内容排重规则
- 跳转的类型和规则: PR和外部锚文本的传递
- 外部锚文本的真实性
相关性的计算框架
- 主要设计模式
- 针对检索词和用户信息需求综合分析确定策略
- 人工和程序结合提高网页自有信息的提取和处理能力
- 提高锚文本包含的词质量,防止作弊
- PR,DR,TR结合,提高网页权威性判定质量,保证首页,索引页靠前
- 增加网页附属信息参与排序
- 增加各因素之间的交叉验证
- 对部分高频词做手工调整(homony)
相关性排序的周边技术
- 下载
- 正文分析
- 切词
- 手工与程序分类
- PR,DR,TR计算
- 锚文本词处理
- 遗传算法训练排序因子
|