python学习(十五) 屏幕抓取
15.1 屏幕抓取
15.1.1 Tidy和XHTML解析
Tidy:用来修复不规范且随意的HTML文档的工具。
为什么用XHTML: 和旧版本的HTML之间最主要的区别:HTML可能只用一个开始标签(<p>)结束一段然后开始下一段,而在XHTML中,首先要显示的关闭当前段落(</p>), 这种行为让XHTML更容易解析,
另外一个好处是:它是XML的一种,可以对他使用XML工具,例如xpath。
解析XTML用HTMLParser.
15.1.2 Beautiful Soup
是个小模块,用来解析和检查经常在网上看到的那类乱七八糟而且不规范的HTML。
15.2 使用CGI创建动态网页
15.2.1 第一步:准备网络服务器
15.2.2 第二步:加入Pound Bang行
15.2.3 第三步: 设置文件权限
15.2.4 CGI安全风险
15.2.5 简单的CGI脚本
15.2.6 使用CGITB调试
15.2.7 使用CGI模块
15.3 更近一步:mod_python
15.3.1 安装mod_python
15.3.2 CGI处理程序
15.3.3 PSP
15.3.4 发布
15.4 网络应用程序框架
15.5 Web服务:正确分析
15.5.1 RSS和相关内容
15.5.2 使用XML-RPC进行远程过程调用
15.5.3 SOAP
15.6 小结