摘要:
上一篇说到用BeautifulSoup解析源代码,下面我们就来实战一下: 其实用open的方式可以避免decode报错,可以的话还是用open比较好。运行结果: 噌~是不是快了许多,还有更快的: h1其实是一个标签,用BeautifulSoup解析过后可以直接引用,下面我们直接引用title标签(学 阅读全文
摘要:
如果要爬取的内容嵌在网页源代码中的话,直接下载网页源代码再利用正则表达式来寻找就ok了。下面是个简单的例子: 注意,decode方法有时候可能会报错,例如 具体原因不知道,可以用decode的一个参数,如下 replace表示遇到不能转码的字符就将其替换成问号还是什么的。。。这也算是一个折中的方法吧 阅读全文