随笔分类 - python 网络爬虫
摘要:1、开始 Python 中可以进行网页解析的库有很多,常见的有BeautifulSoup和lxml等。在网上玩爬虫的文章通常都是介绍BeautifulSoup这个库,我平常也是常用这个库。 最近用Xpath用得比较多,使用BeautifulSoup就不大习惯。 很久之前就知道Reitz大神出了一个叫
阅读全文
摘要:从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库,解析速度快,API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的,并且简
阅读全文
摘要:引言: 在自动化测试以及爬虫领域,无头浏览器的应用场景非常广泛,本文将梳理其中的若干概念和思路,并基于代码示例其中的若干使用技巧。 1. 无头浏览器 通常大家在在打开网页的工具就是浏览器,通过界面上输入网址就可以访问相应的站点内容,这个就是通常所说的基于界面的浏览器。除了这种浏览器之外,还有一种叫做
阅读全文
摘要:http://blog.csdn.net/calling_wisdom/article/details/42524745 今天用python的socket模块实现了一个聊天室的程序 虽然功能比较简单,但是该有的基本功能还是有的 还望大家指点 服务器端程序: 客户端程序: 代码执行效果图: 聊天过程1
阅读全文
摘要:ZeroMQ是一个消息队列网络库,实现网络常用技术封装。在C/S中实现了三种模式,这段时间用python简单实现了一下,感觉python虽然灵活。但是数据处理不如C++自由灵活。 1.Request-Reply模式: 客户端在请求后,服务端必须回响应 1.Request-Reply模式: 客户端在请
阅读全文
摘要:参考来源(其实我从上面复制了一点):Python 的 Socket 编程教程 http://www.oschina.net/question/12_76126Python线程指南 http://www.open-open.com/lib/view/open1345476194313.html Pyt
阅读全文
摘要:1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语
阅读全文
摘要:python 3.X版本是不需要安装:urllib2包的,urllib和urllib2包集合成在一个包了 那现在问题是: 在python3.x版本中,如何使用:urllib2.urlopen()? 答: import urllib.request resp=urllib.request.urlope
阅读全文