摘要: 这里收集了3种利用php获得网页源代码抓取网页内容的方法,我们可以根据实际需要选用。 1、使用file_get_contents获得网页源代码 这个方法最常用,只需要两行代码即可,非常简单方便。 参考代码: <?php $fh= file_get_contents('http://www.webka 阅读全文
posted @ 2018-04-17 15:01 brady-wang 阅读(26127) 评论(0) 推荐(0) 编辑
摘要: 什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块 python正则的详细讲解 常用 阅读全文
posted @ 2018-04-17 12:01 brady-wang 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作 阅读全文
posted @ 2018-04-17 11:19 brady-wang 阅读(507) 评论(0) 推荐(0) 编辑
摘要: Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块 urlopen 关于urllib.request.urlo 阅读全文
posted @ 2018-04-17 10:32 brady-wang 阅读(498) 评论(0) 推荐(0) 编辑