2012 年 8月 15 日随笔档案 - Geek_Ma

2012年8月15日

摘要：近期在写一个正文抽取的程序，基于linux平台C++，大体流程从网页获取-->网页解析-->构建变种dom树-->正文抽取算法-->结构化输出。目前已经完成了第一个功能，调试第二、三个功能，由于互联网上的页面很多由“无证”程序员完成，所以很不规范，需要进行一些容错处理，所以比较耗时间，而且，由于之前对编码格式不了解，在解析时，对我来说编码格式的转换也是一个难题，不过应该会在不断的学习过程中慢慢解决，也算是弥补一下技术缺陷。网页获取可以用curl库完成，很简单，主要有四个函数： 1.CURL *curl_easy_init( ) This function must 阅读全文

posted @ 2012-08-15 16:10 Geek_Ma 阅读(2653) 评论(0) 推荐(0) 编辑

Geek_Ma

公告