04 2008 档案
摘要:摘要:Tag系统是Web2.0的一个招牌应用,如果你有一个经营了好几年的论坛,是不是也想生成自己的一套TAG。别听他们说什么语义WEB,文本聚类算法,TIIDF,余弦定理,相似度算法啥的高深算法(我一个也没整明白),跟我来,简单的计算词频来提取tag的效果就很好。
阅读全文
摘要:写代码也得会用一些常用的排查问题工具,像windbg,Wireshark,EnCase,LogParser,Sysinternals等,今天和大家分享和一个LogParser和Wireshark组合使用的例子。
阅读全文
摘要:有时候我们调用一个第三方的会阻塞的方法,我们要想法做一个调用超时值,一般来说就是另起一个线程加join的办法,这里有另外一种思路,但也不是完全的解决办法,希望大家多多讨论。
阅读全文
摘要:如何让多进程多线程访问数据库,而不会选择相同的数据,这在设计分布式程序的时候经常用到,多台机器的多个进程,每个进程都有多个线程,每个线程要从数据库里取数据来处理,要实现不能漏取数据,也不能重复取数据,这里给出答案
阅读全文
摘要:网络蜘蛛现在开源的已经有好几个了,Larbin,Nutch,Heritrix都各有用户之地,要做一个自己的爬虫要解决好多个问题,比如调度算法、更新策略、分布式存储等,我们来一一看一下。
阅读全文
摘要:原文:http://blog.zxbc.cn/8543/viewspace-1939 1. 导言 在最近几年,个人和公司创建和存储的数字数据的数量急剧膨胀。过去,企业使用计算机系统和数据库以结构化格式例如关系表或固定的格式文档来存储 它们的大部分商业数据,软件应用程序使用这些结构化数据存储来执行商业操作。然而在现今,公司的很大一部分数据是存储在使用功能强大的工具例如 Microsoft® ...
阅读全文
摘要:上次和大家讨论了一些正文提取的细节问题,这次我把一些关键问题解决了,给大家上一下代码,并做了演示,能提取不少网站的正文了,当然在功能和代码组织上还有不少改进的地方。
阅读全文
摘要:网页的正文提取有好多种算法,有基于视觉的,基于标记窗的,基于双层决策等算法,这里讨论一些基于标记窗的算法(相对简单且效果还好)的相关细节问题,如下
阅读全文