爬虫日记-基于bs4库的HTML格式化和编码

基于bs4库的HTML格式化和编码

import requests
from bs4 import BeautifulSoup
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
soup = BeautifulSoup(demo,'html.parser')

print(soup.prettify())

我们之前在讲美味汤的时候，就已经用过一次prettify方法了，那时候没有做讲解，因为我自己都没发现，我不知道那是干什么的，只知道用了那个方法之后，爬取到的html本来是一团的，变成了长长的一条了，看上去清晰了很多。

至于编码，prettify的编码格式是utf8，只要出现了utf8，基本上就没什么好操心的了。即使是中文的内容，他也能打印出来。

posted @ 2019-08-24 09:33 chanyuli 阅读(389) 评论(0) 收藏举报

刷新页面返回顶部

Chanyuli

chanyuli

爬虫日记-基于bs4库的HTML格式化和编码

基于bs4库的HTML格式化和编码

公告