2021 年 9月 5 日随笔档案 - 索匣

2021年9月5日

摘要：一.Beautiful Soup的基本概念 Beautiful Soup库是一个强大的基于Python语言的XML和HTML解析库，可以同它来方便的从网页中提取数据。 Beautiful Soup提供了一些简单的函数来处理导航、搜索、修改分析树等功能，他是一个工具箱，通过解析文档为用户提供需要抓取的阅读全文

posted @ 2021-09-05 20:02 索匣阅读(266) 评论(0) 推荐(0) 编辑

bs4中的select选择器（也就是css选择器）用不了解决方法

摘要：奇葩的事件 bs4中的select方法css选择器在我的环境中失效；我需要学习下调试，或者是溯源工作，为什么报错是我的问题，还是bs4在python3.6.7环境下有漏洞 from bs4 import BeautifulSoup html = ''' <div> <ul> <li class=" 阅读全文

posted @ 2021-09-05 19:28 索匣阅读(1018) 评论(2) 推荐(0) 编辑

lxml与xpath

摘要： lxml是一个Python的一个解析库，用于解析HTML和XML，支持Xpaxth解析。由于lxml底层是使用C语言编写的，所以解析效率非常高。一.安装lxml 主要是介绍windows下的安装 1.使用pip安装 pip install lxml 如果安装出错，表明缺少依赖库，如libxm12。阅读全文

posted @ 2021-09-05 15:53 索匣阅读(548) 评论(0) 推荐(0) 编辑

正则表达式

摘要：编写爬虫的第一步就是抓取资源，抓取web资源后，通常需要对抓取的Web资源进行分析，这就是编写爬虫的第二步。这里的Web资源主要指的是HTML代码，python语言内置的正则表达式可以对任意字符串进行搜索、分组等复杂操作。一。什么是正则表达式：python语言通过标准库的re模块支持正则表达式二阅读全文

posted @ 2021-09-05 14:05 索匣阅读(62) 评论(3) 推荐(0) 编辑

Twisted网络框架

摘要： 1.异步编程模型 2.反应堆模式 3.Twisted框架的基本使用方法 4.使用Twisted框架实现时间戳客户端和服务器一、目前常用的编程模型有3种：同步编程模型，线程编程模型和异步编程模型同步编程模型：所有的任务都在一个线程种完成，线程中的任务都是顺序执行的，也就是说，只有当执行完第一个任务阅读全文

posted @ 2021-09-05 12:49 索匣阅读(295) 评论(0) 推荐(0) 编辑

心若有她便……

个人博客网站 http://101.42.141.145/

公告