随笔档案「2011年9月」 - today4king

如何在Web数据挖掘中保证用户访问速度的一点实践（SQLite+Quartz）

摘要：这个问题一直纠结我很久，以前也想过很多很多想法如下： 1）记录在WebDb中； 2）采用异步线程记录； 3）采用js像cnzz,google那样; 4) 等等记得的就这些了但是都被我扼杀在脑海中了，第一种方式，本来webdb就已经负载不小了，每次请求都记录太不实际，而且采集的数据结构也会时常变化，通常根据当前的研究方向等来确定。第二种方式，比较好，但是怎么让线程在当... 阅读全文

posted @ 2011-09-21 19:10 today4king 阅读(504) 评论(1) 推荐(0)

Lucene 查询权重排序因子解释（备查）

摘要：tf(t in d)：Term frequency factor for the term (t) in the document (d)—howmany times the term t occurs in the document. idf(t) ：Inverse document frequency of the term: a measure of how“unique” t... 阅读全文

posted @ 2011-09-20 11:19 today4king 阅读(1898) 评论(0) 推荐(0)

Lucene代替SQL Server NewGuid获取随机结果

摘要：站点中有个随机获取的功能用了SQL Server 的NewGuid来实现。不知道MSSQL内部是怎么实现的,总之相当慢,我机子上一般光查询就用去140ms+（搜索数据2k+,数据总数12k+），服务器就200ms+至少了，记录数可以说已经很少了，真不知道那些几万数据的随机是怎么搞的，如果有哪位高人希望能指点下。正好站点内用了lucene，想到它的索引一直是放内存的（不是整个索引，简化的），... 阅读全文

posted @ 2011-09-19 15:41 today4king 阅读(1874) 评论(0) 推荐(0)

Firefox 火狐恢复下载失败的任务（原创）

摘要：很多朋友肯定碰到火狐下载一个大文件下到一半因为各种原因失败了，更郁闷的是火狐只能重新开始下载而不是恢复下载任务，如果是几M还就算了，几个G的就哭了。如果有的童鞋说用迅雷，对不起，总有不用迅雷或者没办法用迅雷的时候。废话不多说了，首先需要一个下载失败的任务，打开下载的文件夹，找到那个下载失败的xxxx.part文件A。然后开始一个新的下载（不一定是刚才失败的地址，但是必须是同个文件），然后暂... 阅读全文

posted @ 2011-09-14 13:08 today4king 阅读(3316) 评论(0) 推荐(0)

Join and Group By with LINQ to Entities

摘要：Good code: var query = (from s in db.ForumStatsSet where s.LogDate = date1 && s.LogDate = date2 group s by new { s.Topic.topicID, s.Topic.subject, s.Topic.datum, s.Topic.Forum.forumID, s.Topic... 阅读全文

posted @ 2011-09-09 17:45 today4king 阅读(637) 评论(0) 推荐(0)

Loading

TODAY ^_^

09 2011 档案

公告