学习笔记——用户行为分析-构想和资料
http://u.028life.com/space-1-do-thread-id-1376.html
一、什么是搜索行为分析
用户在使用搜索引擎时,动辄返回上千条返回记录,但里面却充斥着大量与用户需求无关的网页,这对用户从搜索引擎中获取知识带来极大的不变。因此有必要对用户的搜索行为进行分析,有针对性地返回用户所需要的记录。
搜索行为分析主要有两种类型:“群体行为分析”和“个性化搜索分析”。现在许多搜索引擎推出的“热门关键词”服务就是一个群体行为分析的典型例子。“热门关键词”是通过以往的查询记录对有相似兴趣的用户进行聚类,同时使用查询关键字扩展技术,尽量提供用户使用最多的关键词,用户可以直接点击这些关键词连接。由于人们的从众心理,“热门关键词”往往也是你想查询的关键词。个性化搜索则是通过积累用户的搜索个性化数据(也就是用户搜索日志),将使用户的搜索更加精确,更符合每个用户的需求。
二、为什么要进行用户搜索行为分析
1、 用户浏览的选择性
用户每次搜索时,搜索引擎都会返回成百上千个查询结果,这些结果当中有一部分是质量较高的结果,有一部分是质量很差的查询结果,用户根据结果的快照或摘要进行判断,浏览他所需要的结果.因此,如果用户点击一个查询结果,就可认为用户视此查询结果质量较高;被用户多次点击浏览的页面无疑就是用户认为质量较高的页面,这说明用户的浏览行为具有选择性。
2、用户浏览的局部性
用户点击的网页地址相当集中.大部分用户点击都落在前面几页,拿天网搜索为例。第一页的用户点击占总点击的47%,而前面5页的点击占到总点击的75%以上,不到总量1/3的页面的点击次数占到总点击次数的2/3 J,这表明用户点击URL具有很强的局部性,用户点击的局部性提醒我们注意排在前5页的查询结果,保证排在前几页的查询结果都是高质量的查询结果。
3、 用户点击率的问题
由于网页存在的时间越长,累计下来的访问次数可能越多,故网页被访问的次数不能很好地反映一个网页内容的质量。所以,应使用页面的用户点击率来反映页面的质量。用户点击率是页面被访问次数和页面被搜索次数之和。虽然每次用户的点击都是在某查询项下的点击,但研究结果表明,在大部分的查询项下,URL的点击频率和在所有查询项下URL的总点击频率基本一致.因此,在计算用户点击率时就不必考虑该点击次数是在什么查询项下的点击次数。
三、利用WEB挖掘技术进行用户搜索行为的分析
WEB日志挖掘的主要目标是从WEB的访问记录中抽取感兴趣的模式,互连网中的每个服务器都保留了访问日志(WEB Access Log),记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。利用web挖掘技术,可以提高搜索引擎获取信息的准确性,并可以对用户搜索结果进行相关处理,尽量实现查准率和查全率的有机结合。可以从以下几个方面运用WEB挖掘技术进行用户搜索行为的分析:
1、 文档自动分类和搜索结果聚类
(1)目录式搜索引擎和机器人撞索引擎各有利弊。应用Web挖掘技术,可以有效地解决以上问题。搜索引擎通过向Interact发送称为网络蜘蛛的机器人程序自动地从所爬行过的网页上抽取检索到的信息,然后连同该网页的URL地址一起存入搜索引擎的索引数据库中。与一般的纯文本文件不同,web页是HTML格式的超文本,页面中有很多标记,用以描述页面的标题、关键词、以及URL等,这些都包含了重要的分类信息。通过Web挖掘和机器学习技术可以对索引数据库中的信息进行整理,对文档进行自动分类,从而提高了用户的检索速度和检索的精确度。由于采用了机器自动分类的方法,克服了人工分类中信息检索不全面、更新速度慢的缺点。最常用的文档自动分类方法为朴素贝叶斯分类,k最邻近参照分类(kNN),还有支持向量机技术(SVM)。分类结果可视化显示时可以采取不同类别不同层次的形式,对每类的点集日志记录,可以返回给搜索引擎进行分析,例如通过不同类别权重的调整,可以对用户搜索行为进行反馈
(2)用户检索时会得到大量的返回记录集,其中很大一部分是与用户的查询请求不相关的。通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档聚类得比较靠近,从而远离那些不相关的文档。在对用户搜索日志进行分析时,可以把相关信息整合到结果聚类的过程,对拥有相似兴趣的人返回的搜索结果集相关度也应该是比较高的。
2、 实现个性化的搜索引擎
上面说到拥有相同兴趣度的人,经过日志分析处理后,返回的搜索结果也应该是相关的。但从另一个方面看,搜索引擎还存在个性化问题。因为不同的人使用相同的检索词得到的结果是相同的,也就是说搜索引擎没有考虑人的地域、年龄、工作性质等方面的差别。实际上,用户在使用搜索引擎检索信息的同时,在网站的服务器上留下了大量的有用信息。当用户接收到搜索引擎的返回结果时,用户会根据简短的文档摘要进行判断,发现感兴趣的内容后会点击该文档,查看详细内容。通过对用户在文档上停留的时间,以及是否在该文档进一步访问其他链接到该页的文档,是否重复访问该文档等历史信息的不断收集,可以发现一些与用户所检索的关键词密切相关的网页。
3、自动文摘的形成
搜索引擎在向用户返回检索结果时,通常要给出每个文档的一个简单的摘要。大部分搜索擎是机械地截取文档的前几句。利用web文本挖掘中的文本总结技术,可以从web页中提炼出重要信息形成文档摘要,使用户能快速、方便地了解检索信息。自动文摘技术可以使用户直观地快速地了解检索出文档的主要内容。如果是机械地提取文档前几句做为文摘,可能误导作者点击该文档,但对用户日志的分析却不会挖掘出此类情况。
4、 查询结果的相关度排序
相关性是WEB检索的核心。搜索引擎的主要目标是检索出所有与用户查询相关的文档,尽可能减少不相关的文档。基于Web文档内容的挖掘是建立在这样一种假设之上,即从文档中提取的文档表示或者相关概率都可以是相对固定的。说得明确一些,就是认为所有文档都有一些客观存的特征信息在那里等待提取。这是从客观的角度上检索相关文档。而文档是否相关的最终判定者应该是用户。用户主观上认为相关的文档才是真正的相关文档。基于文档内容中包括的超文本链接信息的挖掘虽然考虑了网页设计者对相关文档的主观判定,但忽略了真正的网页使用者——用户的心理。通过分析搜索用户日志就能知道用户在文档相关判定上的意见。通过分析这些用户选择意见能够更好地挖掘相关文档。
-----------------------------------------------------------------------------------------------------
一般的搜索引擎系统主要维护了两类信息,一类是和搜集到的Web页面相关的信息,另一类是在服务过程中收集到的用户行为信息(记录在所谓的日志文件中)。前者指的是机器人从网上抓取的网页经过分析器分析处理后得到的信息,主要包括网页所包含的关键词、摘要信息、元信息(如网页作者、长度、修改时间等)以及URL超链信息,这类信息通常是作为输出信息给用户看的。而后一类信息主要包括用户输入的查询项,查询时间,用户的IP地址,用户在输出页面中所点击感兴趣页面的URL。这两类信息的数据量都很大,在天网系统中它们都已超过千万量级。
天网日志文件分为用户查询日志1和用户点击日志。其中用户查询日志是在用户提交查询请求时记录的,它记录了用户查询时提交的关键词、提交时间、用户IP、页号(查询结果分页显示,每页显示10个查询结果,用户首次查询页号为1,用户翻页时的页号即为用户选择的结果页面号)、是否在缓存中命中等信息。用户查询日志的一个简单的记录格式为:
Fri Mar 21 00:00:02 2003 // 提交时间
218.24.100.77 // 用户IP
Database // 是否在缓存中命中
老歌 // 查询词
3 // 页号
用户点击日志是用户浏览查询结果时点击页面时记录的,它记录了用户点击页面的时间、点击页面的URL、用户IP、点击页面的序号(该页面在查询结果中的位置)、该点击对应的查询词等信息。用户点击日志的一个简单的记录格式为:
Fri Mar 21 00:00:02 2003 // 点击时间
202.206.102.169 // 用户IP
虫儿飞 // 查询词
http://sports.163.com/tm/000828/000828_64264.html // 点击的URL
16 // 点击页面的排序
根据天网系统维护的日志数据,如下统计分析了用户行为的分布特征,主要包括:
1) 用户查询词的分布情况
2) 雷同查询词的衰减统计
3) 相邻N项查询项的偏差分析
4) 用户点击URL的分布情况
5) 用户在输出结果中的翻页情况
在分析上述统计结果时,我们发现用户行为表现出极为强烈的局部性,这启发我们采用查询缓存和热点击缓存来提高系统性能。我们以日志中的用户行为作为输入,模拟实现FIFO、LRU以及带衰减的LFU等3种缓存替换策略,测试了其缓存命中率,比较了它们的优劣。另外,我们发现相邻N项查询项的偏差分布是稳定的,于是猜想用户查询项的分布过程符合自相似性,进而我们对此进行了验证,证明我们的猜测是对的。类似于互联网上网络流量的自相似性特征,该结论对于设计和评价一个搜索引擎系统具有很高的指导意义。
另外,我们还根据天网系统所搜集的网页信息统计分析了Web信息的一些重要参数的分布特征,这些参数包括网页入度、目录深度及镜像度等(这些参数将在后面第四节中定义)。随后我们分别求出了这些参数的分布与用户点击URL的分布的差平方和,依此来度量这些参数对网页重要度的影响。同时,我们也得出了URL的入度、镜像度等参数与用户行为反馈后的相关度的方差分析对搜索引擎结果排序算法(ranking algorithm)的一些启示[单松巍,2003]。这些结论可以被用来提高搜索引擎的检索质量。
-------------------------------------------------------------------------------------------------
搜狗的数据格式为
用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。