python 网络爬虫 - 随笔分类 - 朝阳的向日葵

使用Python的Requests-HTML库进行网页解析

摘要：1、开始 Python 中可以进行网页解析的库有很多，常见的有BeautifulSoup和lxml等。在网上玩爬虫的文章通常都是介绍BeautifulSoup这个库，我平常也是常用这个库。最近用Xpath用得比较多，使用BeautifulSoup就不大习惯。很久之前就知道Reitz大神出了一个叫阅读全文

posted @ 2020-04-20 14:20 朝阳的向日葵阅读(7302) 评论(0) 推荐(0) 编辑

scrapy框架Selector提取数据

摘要：从页面中提取数据的核心技术是HTTP文本解析，在python中常用的模块处理： BeautifulSoup 非常流行的解析库，API简单，但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库，解析速度快，API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的，并且简阅读全文

posted @ 2018-11-19 14:43 朝阳的向日葵阅读(825) 评论(0) 推荐(0) 编辑

基于Python, Selenium, Phantomjs无头浏览器访问页面

摘要：引言：　在自动化测试以及爬虫领域，无头浏览器的应用场景非常广泛，本文将梳理其中的若干概念和思路，并基于代码示例其中的若干使用技巧。 1. 无头浏览器通常大家在在打开网页的工具就是浏览器，通过界面上输入网址就可以访问相应的站点内容，这个就是通常所说的基于界面的浏览器。除了这种浏览器之外，还有一种叫做阅读全文

posted @ 2018-10-23 17:07 朝阳的向日葵阅读(1768) 评论(0) 推荐(0) 编辑

Python socket聊天室程序

摘要：http://blog.csdn.net/calling_wisdom/article/details/42524745 今天用python的socket模块实现了一个聊天室的程序虽然功能比较简单，但是该有的基本功能还是有的还望大家指点服务器端程序：客户端程序: 代码执行效果图：聊天过程1 阅读全文

posted @ 2018-02-23 10:07 朝阳的向日葵阅读(418) 评论(0) 推荐(0) 编辑

ZeroMQ - 三种模型的python实现

摘要：ZeroMQ是一个消息队列网络库，实现网络常用技术封装。在C/S中实现了三种模式，这段时间用python简单实现了一下，感觉python虽然灵活。但是数据处理不如C++自由灵活。 1.Request-Reply模式：客户端在请求后，服务端必须回响应 1.Request-Reply模式：客户端在请阅读全文

posted @ 2017-11-20 16:18 朝阳的向日葵阅读(922) 评论(0) 推荐(0) 编辑

python socket 多人聊天室

摘要：参考来源（其实我从上面复制了一点）：Python 的 Socket 编程教程 http://www.oschina.net/question/12_76126Python线程指南 http://www.open-open.com/lib/view/open1345476194313.html Pyt 阅读全文

posted @ 2017-06-23 19:42 朝阳的向日葵阅读(824) 评论(0) 推荐(0) 编辑

Python正则表达式指南

摘要：1. 正则表达式基础 1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语阅读全文

posted @ 2017-03-03 14:31 朝阳的向日葵阅读(314) 评论(0) 推荐(0) 编辑

python3 urllib.request 网络请求操作

摘要：python 3.X版本是不需要安装：urllib2包的，urllib和urllib2包集合成在一个包了那现在问题是：在python3.x版本中，如何使用：urllib2.urlopen()？答： import urllib.request resp=urllib.request.urlope 阅读全文

posted @ 2017-01-11 17:51 朝阳的向日葵阅读(10002) 评论(0) 推荐(0) 编辑

朝阳的向日葵

随笔分类 - python 网络爬虫

公告

搜索

常用链接

随笔分类

Django 框架学习教程

工具类

阅读排行榜

评论排行榜

推荐排行榜