随笔分类 -  python 网络爬虫

摘要:1、开始 Python 中可以进行网页解析的库有很多,常见的有BeautifulSoup和lxml等。在网上玩爬虫的文章通常都是介绍BeautifulSoup这个库,我平常也是常用这个库。 最近用Xpath用得比较多,使用BeautifulSoup就不大习惯。 很久之前就知道Reitz大神出了一个叫 阅读全文
posted @ 2020-04-20 14:20 朝阳的向日葵 阅读(7302) 评论(0) 推荐(0) 编辑
摘要:从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库,解析速度快,API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的,并且简 阅读全文
posted @ 2018-11-19 14:43 朝阳的向日葵 阅读(825) 评论(0) 推荐(0) 编辑
摘要:引言: 在自动化测试以及爬虫领域,无头浏览器的应用场景非常广泛,本文将梳理其中的若干概念和思路,并基于代码示例其中的若干使用技巧。 1. 无头浏览器 通常大家在在打开网页的工具就是浏览器,通过界面上输入网址就可以访问相应的站点内容,这个就是通常所说的基于界面的浏览器。除了这种浏览器之外,还有一种叫做 阅读全文
posted @ 2018-10-23 17:07 朝阳的向日葵 阅读(1768) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/calling_wisdom/article/details/42524745 今天用python的socket模块实现了一个聊天室的程序 虽然功能比较简单,但是该有的基本功能还是有的 还望大家指点 服务器端程序: 客户端程序: 代码执行效果图: 聊天过程1 阅读全文
posted @ 2018-02-23 10:07 朝阳的向日葵 阅读(418) 评论(0) 推荐(0) 编辑
摘要:ZeroMQ是一个消息队列网络库,实现网络常用技术封装。在C/S中实现了三种模式,这段时间用python简单实现了一下,感觉python虽然灵活。但是数据处理不如C++自由灵活。 1.Request-Reply模式: 客户端在请求后,服务端必须回响应 1.Request-Reply模式: 客户端在请 阅读全文
posted @ 2017-11-20 16:18 朝阳的向日葵 阅读(922) 评论(0) 推荐(0) 编辑
摘要:参考来源(其实我从上面复制了一点):Python 的 Socket 编程教程 http://www.oschina.net/question/12_76126Python线程指南 http://www.open-open.com/lib/view/open1345476194313.html Pyt 阅读全文
posted @ 2017-06-23 19:42 朝阳的向日葵 阅读(824) 评论(0) 推荐(0) 编辑
摘要:1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语 阅读全文
posted @ 2017-03-03 14:31 朝阳的向日葵 阅读(314) 评论(0) 推荐(0) 编辑
摘要:python 3.X版本是不需要安装:urllib2包的,urllib和urllib2包集合成在一个包了 那现在问题是: 在python3.x版本中,如何使用:urllib2.urlopen()? 答: import urllib.request resp=urllib.request.urlope 阅读全文
posted @ 2017-01-11 17:51 朝阳的向日葵 阅读(10002) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示