2013 年 5月 21 日随笔档案 - 刺猬的温驯

浏览器是如何工作的？（转载）

摘要：文章引用地址：http://www.iefans.net/liulanqi-ruhe-gongzuo-yuanli/作者：iefans简介浏览器可以被认为是使用最广泛的软件，本文将介绍浏览器的工作原理，我们将看到，从你在地址栏输入google.com到你看到google主页过程中都发生了什么。将讨论的浏览器今天，有五种主流浏览器——IE、Firefox、Safari、Chrome及Opera。本文将基于一些开源浏览器的例子——Firefox、 Chrome及Safari，Safari是部分开源的。根据W3C（World Wide Web Consortium 万维网联盟）的浏览器统计数据，当前阅读全文

posted @ 2013-05-21 23:12 刺猬的温驯阅读(322) 评论(0) 推荐(0) 编辑

HTMLParser学习笔记（二）

摘要：利用HTMLParser来抽取指定标签具有某属性的的文本内容，比如说抽取div标签，具有class属性问hd，抽取其中的文本内容（一）Filter类顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。判断类Filter：TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter逻辑运算Filter：AndFilterNotFilterOrFilt 阅读全文

posted @ 2013-05-21 21:26 刺猬的温驯阅读(122) 评论(0) 推荐(0) 编辑

HTMLParser学习笔记（一）

摘要：最近一直在学习搜索引擎的相关知识，在对于原始的HTML网页的处理是其中非常重要的一个环节，也就是所说的“去噪”，比如去掉相关的标签和不需要的JS代码等等，HTMLParser（http://htmlparser.sourceforge.net/）是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目，通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分：文本信息抽取：提取网页中的文字。链接提取：提取网页中的链接信息和锚文本。资源提取：网页中图片、声音的处理。链接检查：用于检查H... 阅读全文

posted @ 2013-05-21 21:24 刺猬的温驯阅读(150) 评论(0) 推荐(0) 编辑

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣