2013 年 5月 23 日随笔档案 - vivianC

2013年5月23日

摘要： http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.htmlBeautifulSoup的版本BeautifulSoup主要有两个版本：BeautifulSoup 3之前的，比较早的，是3.x的版本。BeautifulSoup 3的在线文档最新的，可用的，在线文档是：http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html中文版的是：http://www.crummy.com/software/BeautifulSoup/bs3/docum 阅读全文

posted @ 2013-05-23 19:58 vivianC 阅读(210) 评论(0) 推荐(0) 编辑

[python] beautifulsoup介紹 - 转

摘要：转http://sls.weco.net/blog/xenosaga/26-12%E6%9C%88-2010/15623取得html檔在python可以很輕易的用urllib來達成webfile = urllib.urlopen(url)讀取內容可以用webcontext = wefbfile.read()orwebcontext = webfile.read().decode("UTF-8")如果不指定decode方式則以系統預設方式decode交由BeautifulSoup處理soup = BeautifulSoup.BeautifulStoneSoup(webcont 阅读全文

posted @ 2013-05-23 19:56 vivianC 阅读(242) 评论(0) 推荐(0) 编辑

error: Setup script exited with error: Unable to find vcvarsall.bat - 转

摘要：在装psycopg2的时候碰到的奇怪问题。error: Setup script exited with error: Unable to find vcvarsall.bat在办公室及其上通过easy_install psycopg2安装psycopg2一切正常，但在家里的机器上按照同样的方法安装却出错，报找不到vcvarsall.bat，真是奇怪。比较了一下，两台机器的唯一区别是办公室机器上装了Visual studio 2008，难道这个有关系？如非特别需要，绝对不会安装Visual studio，microsoft的东西做的是越来越大，越来越臃肿了。总不能为了这么一个小问题就安装庞大的阅读全文

posted @ 2013-05-23 19:27 vivianC 阅读(492) 评论(0) 推荐(0) 编辑

A Guide to Python's Magic Methods 【转载】

摘要： http://www.rafekettler.com/magicmethods.htmlA Guide to Python's Magic Methods主要包括一些 attributeaccess，reflection， context manager，pickling等http://www.cnblogs.com/Jerryshome/archive/2012/03/26/2417624.html 阅读全文

posted @ 2013-05-23 19:17 vivianC 阅读(186) 评论(0) 推荐(0) 编辑

window install python easy_install

摘要： 1. install python 2.X, eg 2.72. edit environment variable , add python path into PATH (better as adminstrator)3. runez_setup.py (because it is windows system)4. just typeeasy_install in cmd windows5. add easy_installpath into PATH6. restart computerhttp://peak.telecommunity.com/DevCenter/EasyInstall 阅读全文

posted @ 2013-05-23 19:02 vivianC 阅读(243) 评论(0) 推荐(0) 编辑

Python 用HTMLParser解析HTML文件 - 转

摘要：转自：http://andylin02.iteye.com/blog/908170HTMLParser是Python自带的模块，使用简单，能够很容易的实现HTML文件的分析。本文主要简单讲一下HTMLParser的用法.使用时需要定义一个从类HTMLParser继承的类，重定义函数：handle_starttag( tag, attrs)handle_startendtag( tag, attrs)handle_endtag( tag)来实现自己需要的功能。tag是的html标签，attrs是 (属性，值)元组(tuple)的列表(list).HTMLParser自动将tag和attrs都转为阅读全文

posted @ 2013-05-23 16:58 vivianC 阅读(241) 评论(0) 推荐(0) 编辑

python对xpath的支持 - 转

摘要：转 http://padden.blog.51cto.com/2514314/464141介绍python的Xpath的python开元项目:1.libxml2-python-2.6.4.tar.gz安装：下载对应python版本的软件包à解压àpython setup.py install例一：import libxml2def text() :doc = libxml2.parseFile('/tmp/books.xml')for book in doc.xpathEval('/bookstore/book') : print book. 阅读全文

posted @ 2013-05-23 14:41 vivianC 阅读(796) 评论(0) 推荐(0) 编辑

python 各种解析xml包使用方法总结 - 转

摘要： python 各种解析xml包使用方法总结转http://outofmemory.cn/code-snippet/914/python-kinds-jiexi-xml-bao-usage-method-summary使用python开发时，由于python的开源生态圈非常的给力，对于实现同一个功能，往往在这方面的类库非常多，而开发者也同样面临着如何选择最佳的类库作为辅助开发的工具。本文将记录本人在使用python处理xml格式数据时测试过的类库，有些类库由于先天不足，无法支持一些特性，涉及的类库或模块有xml(python自带)、libxml2 、lxml 、xpath 。附注：本文处理x 阅读全文

posted @ 2013-05-23 14:34 vivianC 阅读(1160) 评论(0) 推荐(0) 编辑

BeautifulSoup - Python中第三方的用于解析HTML的库：BeautifulSoup - 转

摘要：转http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup/背景在Python去写爬虫，网页解析等过程中，比如：如何用Python，C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站常常需要涉及到HTML等网页的解析。当然，对于简单的HTML中内容的提取，Python内置的正则表达式Re模块，就足够用了，但是对于复杂的HTML的处理，尤其是一些非法的，有bug的html代码的处理，那么最好还是用专门的HTML的解析的库。Python中的，专门用于HTML解析的库，比较好用的，就是BeautifulSoup 阅读全文

posted @ 2013-05-23 14:21 vivianC 阅读(1715) 评论(0) 推荐(1) 编辑

Python开发者应该知道的7个开发库 - 转

摘要：转：http://developer.51cto.com/art/201211/364737.htmAD：2013大数据全球技术峰会课程PPT下载在我多年的 Python 编程经历以及在 Github 上的探索漫游过程中，我发掘到一些很不错的 Python 开发包，这些包大大简化了开发过程，而本文就是为了向大家推荐这些开发包。请注意我特别排除了像SQLAlchemy和Flask这样的库，因为其实在太优秀了，无需多提。下面开始：1.PyQuery(with lxml)安装方法 pip install pyqueryPython 解析 HTML 时最经常被推荐的是Beautiful Soup，而且阅读全文

posted @ 2013-05-23 14:15 vivianC 阅读(215) 评论(0) 推荐(0) 编辑

vivianC

公告