Python-12-Python 虚拟环境与爬虫

12-1 虚拟环境的搭建

1. 为什么要搭建虚拟环境
项目A需要在python2下运行,项目B需要在python3下面运行。项目A和B使用同一个包,但是项目A需要使用该包1.0版本,项目B需要使用2.0版本。
那么创建虚拟环境可以解决包管理问题。

2. 搭建虚拟环境
pip install pipenv #报错,找不到pip命令
创建一个文件夹,然后cmd终端进入到这个文件夹中
pipenv --three 会使用当前系统的python3创建环境
pipenv shell 激活虚拟环境
pipenv --py 显示python解释器信息
然后进入pycharm绑定这个解释器,File --> Open 自己创建的目录 --> ...

pip list 显示当前安装的包的情况
exit 退出python虚拟环境,pipenv shell 再次进入


12-2 pipenv常见操作

13-1 HTML简单介绍

1.HTML 知识点
超文本标记语言(HyperText Markup Language),是网页制作必备的编程语言。超文本,可以包含文字、图片、链接,甚至音乐、程序等元素。

超文本标记语言的结构包括 “头”部分(英语:Head)、和“主体”部分(英语:Body)。其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。

基本格式(保存名为 index.html):

<!DOCTYPE html>
<html>
    <head>
        <meta charset="utf-8">
        <title>我要学Python</title>
    </head>

    <body>
        <h1>这是一级标题</h1>
        <h2>这是二级标题</h2>
        <p>这是一段文字</p>
        <img src="视频水印.png">

        <div>
            <ul>hello lemon</ul>
            <ul>hello world</ul>
        </div>

        <h3>这是一个三级标题</h3>
        <div id="list">
            <p>python</p>
            <p>Java</p>
            <p class="Hadoop">Hadoop</p>
        </div>
    </body>
</html>

大家如果对HTML感兴趣的话,可以常见这个网址:http://www.w3school.com.cn/html/index.asp


13-2 XPath 获取数据

1. Xpath
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

常用路径表达式:

-----------------------------------
表达式           描述
-----------------------------------
 /               从根节点选取。
 //              从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
 @               选取属性。
-----------------------------------

2. 例子

# /usr/bin/env python

from lxml.html import fromstring

with open('files/index.html','r',encoding='utf-8') as f:
    data = f.read()


selector = fromstring(data)

h1 = selector.xpath('//h1/text()')[0]
p  = selector.xpath('//body/p/text()')[0]

div_ul = selector.xpath('//div/ul/text()')

# div_p  = selector.xpath('//div[@id="list"]/p/text()')
div_p  = selector.xpath('//div[@id="list"]/p[@class="Hadoop"]/text()')

pass

 

13-3 爬虫原则

在网页图片上右键-->检查,可以看到html源码。


...

 

posted on 2023-08-01 16:00  Hello-World3  阅读(47)  评论(0编辑  收藏  举报

导航