2012 年 4月 29 日随笔档案 - 三度空间

2012年4月29日

摘要：工作以来，一直做数据挖掘。刚开始的时候，为政府网站抓取其他网站的正文内容做统计分析，到现在的公司，做海量数据相似度分析。刚开始时，仅仅基于Dom树做分析，然后找出那些最可能是正文的内容，但是这样做，仅能针对的网站数量很少，对于严重不符合规范的网站，抓取准确率很低。这次，借着做毕业设计之际，有充足的时间做深入的学习。先是看了《基于DBScan算法的网页正文提取》，开始对正文提取的手段有了改观。1.DBScan（fordensity-based spatial clustering of applications with noise），我觉得维基百科中对它的描述很准确，很详尽：DBSCAN 阅读全文

posted @ 2012-04-29 19:23 三度空间阅读(1214) 评论(3) 推荐(0) 编辑

公告