摘要: 工作以来,一直做数据挖掘。刚开始的时候,为政府网站抓取其他网站的正文内容做统计分析,到现在的公司,做海量数据相似度分析。刚开始时,仅仅基于Dom树做分析,然后找出那些最可能是正文的内容,但是这样做,仅能针对的网站数量很少,对于严重不符合规范的网站,抓取准确率很低。这次,借着做毕业设计之际,有充足的时间做深入的学习。先是看了《基于DBScan算法的网页正文提取》,开始对正文提取的手段有了改观。1.DBScan(fordensity-based spatial clustering of applications with noise),我觉得维基百科中对它的描述很准确,很详尽:DBSCAN 阅读全文
posted @ 2012-04-29 19:23 三度空间 阅读(1209) 评论(3) 推荐(0) 编辑