摘要: 现在很多网页都是由数据库自动生成的,数据分散在html代码之中:有的位于URL链接中,有的位于之中,有的位于javascript代码之中.如何挖掘这些数据为我所用?小的不才,最近写了一个网络数据库挖掘程序,挖掘了几千万条数据.源代码不能公开,这里简单述说一下设计思路和基本结构吧. 本来是用.net写的,写了几天,因为找不到好的c#的html解析器,最后还是改成了java.在这里,我尽量从语言中性的... 阅读全文
posted @ 2005-12-06 11:04 xiaotie 阅读(5541) 评论(18) 推荐(0) 编辑