08 2016 档案
摘要:本章介绍了Hibernate的几种主要检索方式:HQL检索方式、QBC检索方式、SQL检索方式。HQL是Hibernate Query Language的缩写,是官方推荐的查询语言。QBC是Query By Criteria的缩写,是Hibernate提供的一个查询接口。Hibernate是一个轻量级的框架,它允许使用原始SQL语句查询数据库。 6.1 HQL基础 HQL是Hiberant...
阅读全文
摘要:如何在日志分析中进行数据清洗 前提 我们在进行日志分析的时候,那么日志的数据是杂乱无章的,或则说日志的数据并不是我们都想看到的。所以我们需要对里面的数据进行清洗,说的直白一点就是要过滤里面的字符串。 下面便是我们需要去过滤的原始数据: 183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html HT...
阅读全文
摘要:网站日志分析项目案例(二)数据清洗 一、数据情况分析 1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边...
阅读全文
摘要:本文地址:http://www.cnblogs.com/archimedes/p/mapreduce-inverted-index.html,转载请注明源地址。 1.倒排索引简介 倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 有两种...
阅读全文
浙公网安备 33010602011771号