format Blog

给我个权限,我format你的硬盘.

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
         这个解析器只是作为个人爱好去研究,陆陆续续的投入精力,持续了很长时间,这期间发生了很多的事情。我在上海落脚很长时间后才又继续开发,并把项目命名为Wittiness。
         项目的目的:构建一个Web信息挖掘机,能够高效方便的从网页中截取到需要的信息。
         构建思路是:解析HTML标记   -->  构建层次对象 -->  查询获取承载了需要信息的对象 -->  按对象层次输出结果
         其中难度比较大的就是解析标记和查询获取对象。解析标记我用过了正则表达式,字符串判断,SgmlReader,最好觉得SgmlReader用起来简单,效率也高。查询获取对象,目前实现的主要方法是以表为单位,按索引数来获得,这一块花的时间也比较少。
        新的想法:把HTML拆开读取为string[] 单位为一个HTML标记,用两个数组指针来确定要截取的部分,以个从头开始检索,一个从尾开始检索,这样能很好的解决标记配对的问题。在构造对象层次结构时候也只用数组指针,我想这样应该能提供效率和节约内存。再往后,可以把这个方法改进为流式处理,那么在读取大文件的时候效率就更高了。
         如果能有一个GUI的界面来让用户选择需要截取的内容,那么操作就更加方便了,不知道,象DreamWeaver这样的编辑器是怎么样开发的。
posted on 2006-03-06 13:39  format  阅读(5084)  评论(17编辑  收藏  举报