摘要:对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。 一、从HTML文档中提取链接 Python语言还有一个非常有用的模块HTMLParser,该模...
阅读全文
随笔分类 - Python
摘要:对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接、图像和Cookie等。最后,我们会给出一个规整HTML文件的格式标签的例子,通过这个例子您会发现使用python处理HTML文件的..
阅读全文
摘要:对于大部分论坛,我们想要抓取其中的帖子分析,首先需要登录,否则无法查看。 这是因为 HTTP 协议是一个无状态(Stateless)的协议,服务器如何知道当前请求连接的用户是否已经登录了呢?有两种方式:在URI 中显式地使用 Session ID;利用 Cookie,大概过程是登录一个网站后会在本地保留一个 Cookie,当继续浏览这个网站的时候,浏览器会把 Cookie 连同地址请求一起发送过去。 Python 提供了相当丰富的模块,所以对于这种网络操作只要几句话就可以完成。我以登录 QZZN 论坛为例,事实上下面的程序几乎所有的 PHPWind 类型的论坛都是适用的。# -*- co...
阅读全文
摘要:亲爱的朋友:欢迎你!很高兴能在这里见到你,你能来到这里说明你真的很喜欢python,很想把python给学好!我觉的你很幸运,开始我学python的时候比较少资料,学起来也比较头疼,现在随着python越来越流行,资料也越来越多,大家以后学起来应该会轻松很多了。我前段时间花了很多时间整理了一些python教程,我觉的对初学python的朋友来说是个很好的引路人,我相信通过它你可以快速的上手python的。不信可以试试哦!最近索取资料的朋友比较多,让老王python感到欣慰!为了让更多的朋友了解python,学习python,喜欢python!我做出了一个艰难的决定:如果你想要得到这份资料的话:
阅读全文
摘要:本文演示使用NLTK让计算机学习如何通过名字识别性别。1、导入NLTK:import nltkfrom nltk.book import *2、定义学习方法def gender_features(word): return {'last_letter':word[-1]}3、导入学习的姓名-性别名单:from nltk.corpus import namesimport randomnames=([(name,'male') for name in names.words('male.txt')] + [(name,'female'
阅读全文
摘要:NLTK中的FreqDist方法可以查看文章中每个单词出现的频率。
阅读全文
摘要:Python1import urllib2urlItem = urllib.urlopen("http://www.baidu.com")3htmSource = urlItem.read()4urlItem.close()5print htmSourcepycurlhttp://pycurl.sourceforge.net/download/http://pycurl.sourceforge.net/doc/curlobject.htmlPython01import pycurl02c = pycurl.Curl()03c.setopt(pycurl.URL, "
阅读全文
摘要:去空格及特殊符号s.strip().lstrip().rstrip(',')复制字符串#strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sStr2连接字符串#strcat(sStr1,sStr2)sStr1 = 'strcat'sStr2 = 'append'sStr1 += sStr2print sStr1查找字符#strchr(sStr1,sStr2)# < 0 为未找到sStr1 = 'strchr
阅读全文
摘要:分享下自己对python的metaclass的知识。一 你可以从这里获取什么?1. 也许你在阅读别人的代码的时候碰到过metaclass,那你可以参考这里的介绍。2. 或许你需要设计一些底层的库,也许metaclass能帮你简化你的设计(也有可能复杂化:)3. 也许你在了解metaclass的相关知识之后,你对python的类的一些机制会更了解。4. more......二 metaclass的作用是什么?(感性认识)metaclass能有什么用处,先来个感性的认识:1. 你可以自由的、动态的修改/增加/删除 类的或者实例中的方法或者属性2. 批量的对某些方法使用decorator,而不需要每
阅读全文
摘要:Python语言编程学习资料(电子书+视频教程)下载汇总:开发工具:Python语言集成开发环境 Wingware WingIDE Professional v3.2.12Python语言集成开发环境 Wingware WingIDE Professional v3.2.9.1高效Python/Django开发工具:JetBrains PyCharm v1.1.1 (附注册机)Python和Django开发工具:JetBrains PyCharm v1.1学习资料:Python 3程序开发指南 (第二版) 中文PDF下载 Programming in Python 3, 2rd Edition
阅读全文
摘要:作者:taowen, billriceLesson 1 准备好学习Python的环境下载的地址是:www.python.org为了大家的方便,我在校内作了copy:http://10.1.204.2/tool/compiler&IDE/Python-2.3.2-1.exelinux版本的我就不说了,因为如果你能够使用linux并安装好说明你可以一切自己搞定的。运行环境可以是linux或者是windows:1、linuxredhat的linux安装上去之后一定会有python的(必须的组件),在命令行中输入python回车。这样就可以进入一个>>>的提示符2、windo
阅读全文