zt'网站运营之搜索引擎的用户行为习惯分析
终于等待这一天,开始进行搜索引擎的数据挖掘之用户行为分析。
用户行为分析目的不是为了挖掘某些浏览者的隐私。
用户行为分析是为了网站运营者更好地了解用户的行为习惯,从而设计出更有效的网站专题,网站页面的设计及网站SEO的设计。
数据来源:
网站搜索引擎用户行为分析的数据来源于搜狗实验室提供的数据,http://www.sogou.com/labs/,设计为2006年8月Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合,总体数据规模约为2000万条查询与点击信息。包含的用户行为信息有:用户提交的查询、用户点击的结果URL、该URL在返回结果中的排名、用户点击的顺序号(这是用户点击的第几个页面)、由系统自动分配的用户标识号等。不涉及用户的个人信息如IP地址等。语料库统计的意义:提供一个大规模的互联网搜索引擎用户查询与点击信息的记录。应用案例:用户行为分析,搜索引擎性能评价,搜索引擎算法改进等。
数据格式为
用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID
数据处理过程:
1、将每日的数据access_log.20060801.decode.filter文件后缀修改为TXT
2、用EDITPLUS替换里面的空格及制表符为制表符
3、导入到ACCESS进行初步统计
4、从ACCESS导入到SQLSERVER进行数据分析
5、筛选数据导出到其他分析工具,结果分析工具可能使用EXCLE/ACCESS/FOXPRO/SPSS的组合
6、导入的数据视分析的深度来定,如果有足够的数据,只导入1-2日的数据
部分SQL:
1、select * into s1 from sogouq where keyword like '%KEYWORDXXX%'
keywordxxx:研究的关键字
2、select * into u1 from sogouq where userid in( select distinct userid from s1)
S1:关键字 U1:该关键字用户的其他访问记录
由于对数据知识初步涉及,难免有差错,希望能得到更多人的意见和建议。