摘要:
转载请注明:@小五义http://www.cnblogs.com/xiaowuyi在python中能够进行html和xhtml的库有很多,如HTMLParser、sgmllib、htmllib、BeautifulSoup、mxTidy、uTidylib等,这里介绍一下HTMLParser、BeautifulSoup等模块。一、利用HTMLParser进行网页解析 具体HTMLParser官方文档可参考http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser 1、从一个简单的解析例子开始 例1: test1.html 阅读全文
摘要:
转载请注明:@小五义http://www.cnblogs.com/xiaowuyi题目:用walli在屏幕上写出指定的文字思路:利用地图,指引walli写出文字。walli要有笔运动的轨迹。方法:利用mapmake.py完成地图制作,其中右键建立笔运动轨迹,左建为字的笔划。运行walli.py,点击左键后walli会自动写字。因为walli是按运动轨迹运动,所以在制作地图时,要注意下笔顺序。具体代码:制作地图:mapmake.py# -*- coding: cp936 -*-#@小五义 http://www.cnblogs.com/xiaowuyi#右键画出绿色的点,表示walli的运动轨迹, 阅读全文
摘要:
转载请注明:@小五义http://www.cnblogs.com/xiaowuyi6.1 最简单的爬虫网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。python的urllib\urllib2等模块很容易实现这一功能,下面的例子实现的是对baidu首页的下载。具体代码如下:import urllib2page=urllib2.urlopen("http://www.baidu.com")print page.read()6.2 提交表单数据(1)用GET方法提交数据提交表单的GET方法是把表单数据编码至URL。在给出请示的页面后,加上 阅读全文
摘要:
转载请注明:@小五义http://www.cnblogs.com/xiaowuyi 用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章。我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后利用字库特征匹配的方法,一类是图片处理后建立字符对应字典,还有一类是直接利用ocr模块进行识别。不管是用什么方法,都需要首先对图片进行处理,于是试着对下面的验证码进行分析。 一、图片处理 这个验证码中主要的影响因素是中间的曲线,首先考虑去掉图片中的曲线。考虑了两种算法: 第一种是首先取到曲线头的位置,即x=0时,黑点的位置。然后向后移动x的取值,观察每个x下黑点 阅读全文
摘要:
1、半开放socket利用shutdown()函数使socket双向数据传输变为单向数据传输。shutdown()需要一个单独的参数,该参数表示了如何关闭socket。具体为:0表示禁止将来读;1 表示禁止将来写;2表示禁止将来读和写。2、timeouts控制超时调用socket的settimeout()函数,向其传递参数,表明超时时间设置。当访问一个socket,如果经过了参数设定的时间后,什么都没有发生,则会产生一个socket.timeout异常。例如:当程序运行后,会等待数据传入。在另一终端,利用telnet连接12345端口。连接成功后,显示“连接来自:****”,如果此时5秒内,终 阅读全文