python 爬虫 Bs4解析 -----HTML语法

Bs4

  • bs4全称:beautifulsoup4,意思为美丽的汤版本4
  • 可以在HTML或XML文件中提取数据的网页信息提取库

与re和xpath模块的区别:

  • re模块:使用起来过于麻烦且阅读性不好
  • xpath模块:需要使用一些特定的语法
  • bs4模块:只需要记住一些方法如:find()、find_all(),后面会发现bs4可以认为是re和xpath的混合使用


 

 

<!--<h1>hello html</h1>-->
<!--<h1 align="center">hello html a</h1>-->
<!--&lt;!&ndash; h1: 标签&ndash;&gt;-->
<!--&lt;!&ndash; align: 属性&ndash;&gt;-->
<!--&lt;!&ndash; center 属性值&ndash;&gt;-->

<!--<标签 属性="属性值">被标记的内容</标签>-->

<!--<img src="xxx.jpg"/>-->
<!--<br />-->
<!--<标签 />-->

<div id="1" class="h1">周杰伦</div>
<div id="2" class="h2">周杰</div>
<div id="3" class="h3">杰伦</div>
<div id="4" class="h4">周伦</div>
<div id="5" class="h5"></div>

#定位
<!--div -> id:3-->

<!--div -> class:h4-->

 

posted @ 2022-10-28 13:33  slowlydance2me  阅读(86)  评论(0编辑  收藏  举报