Python-12-Python 虚拟环境与爬虫
12-1 虚拟环境的搭建
1. 为什么要搭建虚拟环境
项目A需要在python2下运行,项目B需要在python3下面运行。项目A和B使用同一个包,但是项目A需要使用该包1.0版本,项目B需要使用2.0版本。
那么创建虚拟环境可以解决包管理问题。
2. 搭建虚拟环境
pip install pipenv #报错,找不到pip命令
创建一个文件夹,然后cmd终端进入到这个文件夹中
pipenv --three 会使用当前系统的python3创建环境
pipenv shell 激活虚拟环境
pipenv --py 显示python解释器信息
然后进入pycharm绑定这个解释器,File --> Open 自己创建的目录 --> ...
pip list 显示当前安装的包的情况
exit 退出python虚拟环境,pipenv shell 再次进入
12-2 pipenv常见操作
13-1 HTML简单介绍
1.HTML 知识点
超文本标记语言(HyperText Markup Language),是网页制作必备的编程语言。超文本,可以包含文字、图片、链接,甚至音乐、程序等元素。
超文本标记语言的结构包括 “头”部分(英语:Head)、和“主体”部分(英语:Body)。其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
基本格式(保存名为 index.html):
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>我要学Python</title> </head> <body> <h1>这是一级标题</h1> <h2>这是二级标题</h2> <p>这是一段文字</p> <img src="视频水印.png"> <div> <ul>hello lemon</ul> <ul>hello world</ul> </div> <h3>这是一个三级标题</h3> <div id="list"> <p>python</p> <p>Java</p> <p class="Hadoop">Hadoop</p> </div> </body> </html>
大家如果对HTML感兴趣的话,可以常见这个网址:http://www.w3school.com.cn/html/index.asp
13-2 XPath 获取数据
1. Xpath
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
常用路径表达式:
----------------------------------- 表达式 描述 ----------------------------------- / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 @ 选取属性。 -----------------------------------
2. 例子
# /usr/bin/env python from lxml.html import fromstring with open('files/index.html','r',encoding='utf-8') as f: data = f.read() selector = fromstring(data) h1 = selector.xpath('//h1/text()')[0] p = selector.xpath('//body/p/text()')[0] div_ul = selector.xpath('//div/ul/text()') # div_p = selector.xpath('//div[@id="list"]/p/text()') div_p = selector.xpath('//div[@id="list"]/p[@class="Hadoop"]/text()') pass
13-3 爬虫原则
在网页图片上右键-->检查,可以看到html源码。
...
posted on 2023-08-01 16:00 Hello-World3 阅读(47) 评论(0) 编辑 收藏 举报