HTML简单了解

 

 

 

# -*- coding: utf-8 -*-
"""
Created on Fri Jan 11 12:24:04 2019

@author: Administrator
"""
http://www.w3school.com.cn/html/html_jianjie.asp
首先了解基本的html知识
<html>
<body>

<h1>我的第一个标题</h1>

<p>我的第一个段落。</p>

</body>
</html>

解释
<html> 与 </html> 之间的文本描述网页
<body> 与 </body> 之间的文本是可见的页面内容
<h1> 与 </h1> 之间的文本被显示为标题
<p> 与 </p> 之间的文本被显示为段落

HTML文档和标签
    HTML 文档包含 HTML 标签和纯文本
    HTML 标签是由尖括号包围的关键词,比如 <html>
    HTML 标签通常是成对出现的,比如 <b> 和 </b>
    
HTML 标题
HTML 标题(Heading)是通过 <h1> - <h6> 等标签进行定义的。

    实例
    <h1>This is a heading</h1>
    <h2>This is a heading</h2>
    <h3>This is a heading</h3>

HTML 段落
HTML 段落是通过 <p> 标签进行定义的。

    实例
    <p>This is a paragraph.</p>
    <p>This is another paragraph.</p>

HTML 链接
HTML 链接是通过 <a> 标签进行定义的。

    实例
    <a href="http://www.w3school.com.cn">This is a link</a>

    注释:在 href 属性中指定链接的地址。


HTML 图像
HTML 图像是通过 <img> 标签进行定义的。

    实例
    <img src="w3school.jpg" width="104" height="142" />
    
HTML 元素
HTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码。


HTML 实例解释

    <p> 元素:
    <p>This is my first paragraph.</p>
    这个 <p> 元素定义了 HTML 文档中的一个段落。
    这个元素拥有一个开始标签 <p>,以及一个结束标签 </p>。
    元素内容是:This is my first paragraph。
    
    <body> 元素:
    <body>
    <p>This is my first paragraph.</p>
    </body>
    <body> 元素定义了 HTML 文档的主体。
    这个元素拥有一个开始标签 <body>,以及一个结束标签 </body>。
    元素内容是另一个 HTML 元素(p 元素)。
    
    <html> 元素:
    <html>
    <body>
    <p>This is my first paragraph.</p>
    </body>
    </html>
    <html> 元素定义了整个 HTML 文档。  
    这个元素拥有一个开始标签 <html>,以及一个结束标签 </html>。  
    元素内容是另一个 HTML 元素(body 元素)。
    
HTML 属性
HTML 标签可以拥有属性。属性提供了有关 HTML 元素的更多的信息。

属性总是以名称/值对的形式出现,比如:name="value"。

属性总是在 HTML 元素的开始标签中规定。

属性实例
HTML 链接由 <a> 标签定义。链接的地址在 href 属性中指定:

<a href="http://www.w3school.com.cn">This is a link</a>

HTML 折行
如果您希望在不产生一个新段落的情况下进行换行(新行),请使用 <br /> 标签:

<p>This is<br />a para<br />graph with line breaks</p>
亲自试一试
<br /> 元素是一个空的 HTML 元素。由于关闭标签没有任何意义,因此它没有结束标签。

<br> 还是 <br />
您也许发现 <br> 与 <br /> 很相似。

在 XHTML、XML 以及未来的 HTML 版本中,不允许使用没有结束标签(闭合标签)的 HTML 元素。

即使 <br> 在所有浏览器中的显示都没有问题,使用 <br /> 也是更长远的保障。



       


    



















from bs4 import BeautifulSoup


html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""


#对于html有不同的解析解析器lxml和html.parser,我们用不同的方式解析得到的类型是一样的。

soup=BeautifulSoup(html,"lxml")

#type(soup)
#Out[14]: bs4.BeautifulSoup  得到一个BeautifulSoup对象


soup1=BeautifulSoup(html,"html.parser")
#type(soup1)
#Out[16]: bs4.BeautifulSoup

 

posted @ 2019-01-11 14:26  V5八旗  阅读(162)  评论(0编辑  收藏  举报