摘要:
在HTML网页中经常使用相对URL。绝对URL是不依赖其他URL路径。在一定的上下文环境可以使用相对URL。网页中的相对URL的形式如:“./index.html”。可以在<A>和<img>标签中使用相对URL。如:<img src = "../images/a.gif" />。 那么如何把相对UR 阅读全文
摘要:
实现从Web网页提取文本之前,首先要识别网页的编码,有时候还需要进一步识别网页所使用的语言。因为同一种编码可能对应多种语言,例如UTF-8编码可能对应英文或中文等语言。 识别编码整体流程如下: (1)从WEB服务器返回的content type头信息中提取编码,如果是GB2312的编码要当GBK处理 阅读全文