摘要: 一.Beautiful Soup的基本概念 Beautiful Soup库是一个强大的基于Python语言的XML和HTML解析库,可以同它来方便的从网页中提取数据。 Beautiful Soup提供了一些简单的函数来处理导航、搜索、修改分析树等功能,他是一个工具箱,通过解析文档为用户提供需要抓取的 阅读全文
posted @ 2021-09-05 20:02 索匣 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 奇葩的事件 bs4中的select方法css选择器在我的环境中失效;我需要学习下调试,或者是溯源工作,为什么报错 是我的问题,还是bs4在python3.6.7环境下有漏洞 from bs4 import BeautifulSoup html = ''' <div> <ul> <li class=" 阅读全文
posted @ 2021-09-05 19:28 索匣 阅读(995) 评论(2) 推荐(0) 编辑
摘要: lxml是一个Python的一个解析库,用于解析HTML和XML,支持Xpaxth解析。由于lxml底层是使用C语言编写的,所以解析效率非常高。 一.安装lxml 主要是介绍windows下的安装 1.使用pip安装 pip install lxml 如果安装出错,表明缺少依赖库,如libxm12。 阅读全文
posted @ 2021-09-05 15:53 索匣 阅读(492) 评论(0) 推荐(0) 编辑
摘要: 编写爬虫的第一步就是抓取资源,抓取web资源后,通常需要对抓取的Web资源进行分析,这就是编写爬虫的第二步。这里的Web资源主要指的是HTML代码,python语言内置的正则表达式可以对任意字符串进行搜索、分组等复杂操作。 一。什么是正则表达式:python语言通过标准库的re模块支持正则表达式 二 阅读全文
posted @ 2021-09-05 14:05 索匣 阅读(59) 评论(3) 推荐(0) 编辑
摘要: 1.异步编程模型 2.反应堆模式 3.Twisted框架的基本使用方法 4.使用Twisted框架实现时间戳客户端和服务器 一、目前常用的编程模型有3种:同步编程模型,线程编程模型和异步编程模型 同步编程模型:所有的任务都在一个线程种完成,线程中的任务都是顺序执行的,也就是说,只有当执行完第一个任务 阅读全文
posted @ 2021-09-05 12:49 索匣 阅读(289) 评论(0) 推荐(0) 编辑