如何让多进程多线程访问数据库,而不会选择相同的数据,这在设计分布式程序的时候经常用到,多台机器的多个进程,每个进程都有多个线程,每个线程要从数据库里取数据来处理,要实现不能漏取数据,也不能重复取数据,这里给出答案 Read More
posted @ 2008-04-19 23:36 蛙蛙王子 Views(9663) Comments(48) Diggs(1) Edit
网络蜘蛛现在开源的已经有好几个了,Larbin,Nutch,Heritrix都各有用户之地,要做一个自己的爬虫要解决好多个问题,比如调度算法、更新策略、分布式存储等,我们来一一看一下。 Read More
posted @ 2008-04-19 19:41 蛙蛙王子 Views(10469) Comments(18) Diggs(3) Edit
原文:http://blog.zxbc.cn/8543/viewspace-1939 1. 导言 在最近几年,个人和公司创建和存储的数字数据的数量急剧膨胀。过去,企业使用计算机系统和数据库以结构化格式例如关系表或固定的格式文档来存储 它们的大部分商业数据,软件应用程序使用这些结构化数据存储来执行商业操作。然而在现今,公司的很大一部分数据是存储在使用功能强大的工具例如 Microsoft® ... Read More
posted @ 2008-04-19 09:26 蛙蛙王子 Views(1094) Comments(2) Diggs(0) Edit