08 2012 档案

摘要:今天很有成就感,倒不是做出了多牛的东西,而是终于可以动态的进行编码的各种转换了。 其实这个用到的是网上一搜一大片的iconv,目前有windows版和linux版,linux下的很容易找到,直接装上就可以进行开发了,windows下的包可以通过这个链接下载:win-iconv-0.0.4.zip,直接将放入工程内,就可以使用了。 下面给出我自己的测试代码(基于文件的):#include <iostream>#include <stdlib.h>#include <stdio.h>#include <fstream>#include "i 阅读全文
posted @ 2012-08-29 15:58 Geek_Ma 阅读(2043) 评论(0) 推荐(1) 编辑
摘要:最近在写正文抽取的过程中,经常用到字符串处理,为了更好的定制,就没使用第三方的字符串处理库,而选择了c++自带的标准库string 真正使用的时候,发现知道方法名,不知道怎么用了(参数),所以在网上找了个方法列表:#include <string>// 注意是<string>using namespace std;//string类的构造函数:string(const char *s); //用c字符串s初始化string(int n,char c); //用n个字符c初始化//此外,string类还支持默认构造函数和复制构造函数,如string s1;string s 阅读全文
posted @ 2012-08-27 11:51 Geek_Ma 阅读(262) 评论(0) 推荐(0) 编辑
摘要:近期在写一个正文抽取的程序,基于linux平台C++,大体流程从网页获取-->网页解析-->构建变种dom树-->正文抽取算法-->结构化输出。 目前已经完成了第一个功能,调试第二、三个功能,由于互联网上的页面很多由“无证”程序员完成,所以很不规范,需要进行一些容错处理,所以比较耗时间,而且,由于之前对编码格式不了解,在解析时,对我来说编码格式的转换也是一个难题,不过应该会在不断的学习过程中慢慢解决,也算是弥补一下技术缺陷。 网页获取可以用curl库完成,很简单,主要有四个函数: 1.CURL *curl_easy_init( ) This function must 阅读全文
posted @ 2012-08-15 16:10 Geek_Ma 阅读(2654) 评论(0) 推荐(0) 编辑
摘要:Squid研究记录Squid cache(简称为Squid)是一个流行的自由软件(GNU通用公共许可证)的代理服务器和Web缓存服务器。Squid有广泛的用途,从作为网页服务器的前置cache服务器缓存相关请求来提高Web服务器的速度,到为一组人共享网络资源而缓存万维网,域名系统和其他网络搜索,到通过过滤流量帮助网络安全,到局域网通过代理上网。Squid主要设计用于在Unix一类系统运行。 Squid的发展历史相当悠久,功能也相当完善。除了HTTP外,对于FTP与HTTPS的支援也相当好,在3.0 测试版中也支援了IPv6。 ----摘自“开源中国社区”下面是从安装,到配置的整个过程,并对.. 阅读全文
posted @ 2012-08-06 14:57 Geek_Ma 阅读(796) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示