随笔分类 -  Python

摘要:BeautifulSoup库通俗来说是【解析、遍历、维护“标签树”(例如html、xml等格式的数据对象)的功能库 】一个简单的使用BeautifulSoup库的demo: 得到一个BeautifulSoup对象后,一般通过BeautifulSoup类的基本元素来提取html中的内容 2.提取htm 阅读全文
posted @ 2019-01-23 14:13 木子七 阅读(207) 评论(0) 推荐(0) 编辑
摘要:正则表达式是对字符串操作的一种逻辑公式,就是用实现定义好的一些特定字符、及这些特定字符的组合,组成一个'规则字符串',这个'规则字符串'用来表达对字符串的一种过滤逻辑! 开源中国提供的正则表达式测试工具 http://tool.oschina.net/regex/ match() 正则常用的匹配方法 阅读全文
posted @ 2019-01-21 10:58 木子七 阅读(176) 评论(0) 推荐(0) 编辑
摘要:requests:pip install request 安装 实例: 阅读全文
posted @ 2019-01-21 08:38 木子七 阅读(733) 评论(0) 推荐(0) 编辑
摘要:urllib 在Python2中,有urllib和urllib2两个库实现请求发送,在Python3中,统一为urllib,是Python内置的HTTP请求库 request:最基本的HTTP请求模块,可以模拟发送请求。 error:异常处理模块 parse:一个工具模块,提供了许多URL处理方法, 阅读全文
posted @ 2019-01-18 20:10 木子七 阅读(328) 评论(0) 推荐(0) 编辑
摘要:网络爬虫:.网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。请求网站并提取数据的自动化程序,可以理解为在网络上爬来爬去的一只蜘蛛,互联网可以比喻成一张大网,爬虫在这张大网爬,遇到一些自己感兴趣的网站资源,就可以模拟浏览器把它抓取下来,之后存入到CSV 数据库等 请求网站:就是要用程 阅读全文
posted @ 2018-09-20 11:31 木子七 阅读(719) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
workspaces
keyboard_arrow_up dark_mode palette
选择主题