C++ 提取网页内容系列之一

标 题: C++ 提取网页内容系列
作 者: itdef
链 接: http://www.cnblogs.com/itdef/p/4171179.html 

欢迎转帖 请保持文本完整并注明出处

首先分析网页就要下载网页内容 这里给出了两种方案

一种是使用MFC自带函数

代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
int GetHttpFileData(CString strUrl,char* szDownloadHtmFileName)
{
    CInternetSession Session("Internet Explorer", 0);
    CHttpFile *pHttpFile = NULL;
    CString strData;
    CString strClip;
    int iRet = -1;
 
    if(szDownloadHtmFileName == NULL)
    {  
        cerr << "DownloadHtmFileName is NULL" << endl;
        Session.Close();
        return iRet;
    }
 
    ofstream of(szDownloadHtmFileName);
    if (of.bad())
    {
        cerr << "of create file error" << endl;
        Session.Close();
        return iRet;
    }
 
    try
    {
        pHttpFile = (CHttpFile*)Session.OpenURL(strUrl);
        while ( pHttpFile->ReadString(strClip) )
        {
            of << strClip;
        }
    }catch(CInternetException* pEx)
    {
        TCHAR pszError[64];
        pEx->GetErrorMessage(pszError, 64);
        cerr << __FUNCTION__ << pszError << endl;
        goto GetHttpFileData_EXIT;
    }
 
    iRet = 0;
 
GetHttpFileData_EXIT:
    Session.Close();
    of.close();
 
    return iRet;
}

这里我将下载内容写入了一个文件存入硬盘。另外还需要注意的是 网页文件下载的格式可能是宽字节 使用UTF8格式,这里需要将其转换为GBK多字节。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
int UTF8Str2GBK(const string& strUTF8,string& strGBK)
{
    int i = MultiByteToWideChar(CP_UTF8, 0, strUTF8.c_str(), -1, NULL, 0);
    WCHAR *wsz = NULL;
    TCHAR *tsz = NULL;
    int iRet = -1;
 
    wsz = new WCHAR[i+1];
    if( NULL == wsz)
    {
        goto UTF8Str2GBK_EXIT;
    }
    MultiByteToWideChar(CP_UTF8, 0, strUTF8.c_str(), -1, wsz, i);
 
    i = WideCharToMultiByte(CP_ACP, 0, wsz, -1, NULL, 0, NULL, NULL);
    tsz = new TCHAR[i+1];
    if( NULL == tsz)
    {
        goto UTF8Str2GBK_EXIT;
    }
    WideCharToMultiByte(CP_ACP, 0, wsz, -1, tsz, i, NULL, NULL);
     
    strGBK = string(tsz);
 
    iRet = 0;
UTF8Str2GBK_EXIT:
 
    delete []wsz;
    delete []tsz;
 
    return iRet;
}

全部代码见 http://www.oschina.net/code/snippet_614253_43732

效果图见 http://www.cnblogs.com/itdef/p/4081963.html

 

posted on   itdef  阅读(5170)  评论(0编辑  收藏  举报

编辑推荐:
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示