摘要: http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.htmlBeautifulSoup的版本BeautifulSoup主要有两个版本:BeautifulSoup 3之前的,比较早的,是3.x的版本。BeautifulSoup 3的在线文档最新的,可用的,在线文档是:http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html中文版的是:http://www.crummy.com/software/BeautifulSoup/bs3/docum 阅读全文
posted @ 2013-05-23 19:58 vivianC 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 转http://sls.weco.net/blog/xenosaga/26-12%E6%9C%88-2010/15623取得html檔在python可以很輕易的用urllib來達成webfile = urllib.urlopen(url)讀取內容可以用webcontext = wefbfile.read()orwebcontext = webfile.read().decode("UTF-8")如果不指定decode方式則以系統預設方式decode交由BeautifulSoup處理soup = BeautifulSoup.BeautifulStoneSoup(webcont 阅读全文
posted @ 2013-05-23 19:56 vivianC 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 在装psycopg2的时候碰到的奇怪问题。error: Setup script exited with error: Unable to find vcvarsall.bat在办公室及其上通过easy_install psycopg2安装psycopg2一切正常,但在家里的机器上按照同样的方法安装却出错,报找不到vcvarsall.bat,真是奇怪。比较了一下,两台机器的唯一区别是办公室机器上装了Visual studio 2008,难道这个有关系?如非特别需要,绝对不会安装Visual studio,microsoft的东西做的是越来越大,越来越臃肿了。总不能为了这么一个小问题就安装庞大的 阅读全文
posted @ 2013-05-23 19:27 vivianC 阅读(492) 评论(0) 推荐(0) 编辑
摘要: http://www.rafekettler.com/magicmethods.htmlA Guide to Python's Magic Methods主要包括一些 attributeaccess,reflection, context manager,pickling等http://www.cnblogs.com/Jerryshome/archive/2012/03/26/2417624.html 阅读全文
posted @ 2013-05-23 19:17 vivianC 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 1. install python 2.X, eg 2.72. edit environment variable , add python path into PATH (better as adminstrator)3. runez_setup.py (because it is windows system)4. just typeeasy_install in cmd windows5. add easy_installpath into PATH6. restart computerhttp://peak.telecommunity.com/DevCenter/EasyInstall 阅读全文
posted @ 2013-05-23 19:02 vivianC 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 转自:http://andylin02.iteye.com/blog/908170HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析。本文主要简单讲一下HTMLParser的用法.使用时需要定义一个从类HTMLParser继承的类,重定义函数:handle_starttag( tag, attrs)handle_startendtag( tag, attrs)handle_endtag( tag)来实现自己需要的功能。tag是的html标签,attrs是 (属性,值)元组(tuple)的列表(list).HTMLParser自动将tag和attrs都转为 阅读全文
posted @ 2013-05-23 16:58 vivianC 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 转 http://padden.blog.51cto.com/2514314/464141介绍python的Xpath的python开元项目:1.libxml2-python-2.6.4.tar.gz安装:下载对应python版本的软件包à解压àpython setup.py install例一:import libxml2def text() :doc = libxml2.parseFile('/tmp/books.xml')for book in doc.xpathEval('/bookstore/book') : print book. 阅读全文
posted @ 2013-05-23 14:41 vivianC 阅读(796) 评论(0) 推荐(0) 编辑
摘要: python 各种解析xml包使用方法总结转http://outofmemory.cn/code-snippet/914/python-kinds-jiexi-xml-bao-usage-method-summary使用python开发时,由于python的开源生态圈非常的给力,对于实现同一个功能,往往在这方面的类库非常多,而开发者也同样面临着如何选择最佳的 类库作为辅助开发的工具。本文将记录本人在使用python处理xml格式数据时测试过的类库,有些类库由于先天不足,无法支持一些特性,涉及的类库或模 块有xml(python自带)、libxml2 、lxml 、xpath 。附注:本文处理x 阅读全文
posted @ 2013-05-23 14:34 vivianC 阅读(1160) 评论(0) 推荐(0) 编辑
摘要: 转http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup/背景在Python去写爬虫,网页解析等过程中,比如:如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站常常需要涉及到HTML等网页的解析。当然,对于简单的HTML中内容的提取,Python内置的正则表达式Re模块,就足够用了,但是对于复杂的HTML的处理,尤其是一些非法的,有bug的html代码的处理,那么最好还是用专门的HTML的解析的库。Python中的,专门用于HTML解析的库,比较好用的,就是BeautifulSoup 阅读全文
posted @ 2013-05-23 14:21 vivianC 阅读(1715) 评论(0) 推荐(1) 编辑
摘要: 转:http://developer.51cto.com/art/201211/364737.htmAD:2013大数据全球技术峰会课程PPT下载在我多年的 Python 编程经历以及在 Github 上的探索漫游过程中,我发掘到一些很不错的 Python 开发包,这些包大大简化了开发过程,而本文就是为了向大家推荐这些开发包。请注意我特别排除了像SQLAlchemy和Flask这样的库,因为其实在太优秀了,无需多提。下面开始:1.PyQuery(with lxml)安装方法 pip install pyqueryPython 解析 HTML 时最经常被推荐的是Beautiful Soup,而且 阅读全文
posted @ 2013-05-23 14:15 vivianC 阅读(215) 评论(0) 推荐(0) 编辑