实战Transformers-【基础知识与环境安装】Day 1
自然语言处理任务
首先介绍一下基础知识,这里我直接引用视频里的ppt
Transformers介绍
Transformers相关环境安装
环境安装来了,这里作者从头演示了一次
前置环境安装——Python
-
miniconda安装
下载地址:miniconda 如果C盘有空间,最好安装在C盘,且安装目录中不能有中文
勾选将其添加到PATH -
conda环境创建
命令: conda create -n transformers python=3.9
明确指定版本,否则可能会因版本过高导致有包装不上 -
pypi配置国内源
清华源: mirrors.tuna.tsinghua
可以搜索miniconda qinghua
下载地址:miniconda
这里我们可以选择一个py39
下载完后直接点next,I agree
Just me就行
根据需求安装不同的盘
作者建议如果C盘有空间,最好安装在C盘,且安装目录中不能有中文(我的C盘不大,所以我安在了D盘)
勾选将其添加到PATH,这个是重点!
然后Install
我们打开anaconda prompt
输入命令: conda create -n transformers python=3.9
明确指定版本,否则可能会因版本过高导致有包装不上
然后conda activate一下就好
下面我们配一下国内的源,这里推荐清华源
设置镜像:直接搜索pypi qinghua
进入清华源
这里的话习惯设为默认,将这行代码pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
输入进去
然后回车就好了,它会提示,就是他会把这个东西写到了你这个pypi里面,就OK了
前置环境安装——Pytorch
- Pytorch安装
在一个单独的环境中,能使用pip就尽量使用pip,实在有问题的情况,例如没有合适的编译好的系统版本的安装包,再使用conda进行安装,不要来回混淆
30XX、40XX显卡,要安装cu11以上的版本,否则无法运行
在英伟达控制面板的系统信息里面查看自己电脑配置的cuda版本最高为多少从而选择torch版本(torch网站:https://pytorch.org/ ),推荐使用pip来安装pytorch,用conda会有点奇怪,这里如果显卡是30或者40以上的一定要安装cu11以上的版本,其他显卡的话就无所谓了,AMD显卡没尝试过
这里我们装1.13.1-cu116版本的,然后把它完整copy下来
这里建议在一个单独的环境里能使用pip安装就尽量使用pip,如果实在是有问题的情况,比如没有一个编译好的系统版本的一个安装包,再去考虑使用conda进行安装,不要来回混淆,否则它会装着装着环境就会乱
现在的话,pytorch已经安装好了,我们检测一下:
输入
python
import torch
torch.cuda_is_available()
输出为True
然后exit()
退出
下面安装开发的IDE,由于jupyter这块pycharm是专业版,而VScode里只需要安装插件即可,故这里安装VScode
前置环境安装-vscode
- VS Code 安装
官方地址: https://code.visualstudio.com/download - 插件安装
Python(代码编写)
remote ssh (连接服务器)
Chinese Language Pack (简体中文包) - 终端设置 (非常重要!非常重要!非常重要!)
选择默认配置文件: cmd.exe
VScode安装的时候有一点就是将这几个都勾上会比较方便一点
然后我们安装插件
装ssh可以在这里去连服务器
配置终端:如果没有安装过vscode的话默认终端是Windows power shell,这里我们ctrl+·打开终端设为conda prompt
Transformers安装
- 安装命令
pip install transformers datasets evaluate peft accelerate gradio optimum sentencepiece
pip install jupyterlab scikit-learn pandas matplotlib tensorboard nltk rouge
- hosts修改
185.199.108.133 raw.githubusercontent.com
185.199.109.133 raw.githubusercontent.com
185.199.110.133 raw.githubusercontent.com
185.199.111.133 raw.githubusercontent.com
2606:50c0:8000::154 raw.githubusercontent.com
2606:50c0:8001::154 raw.githubusercontent.com
2606:50c0:8002::154 raw.githubusercontent.com
2606:50c0:8003::154 raw.githubusercontent.com
这里我们创建demo.ipynb的文件,选择内核,我们选择python环境里的transfomers
from transformers import *
出现这样就是成功了,但我出现很多warning,再次运行就消失了,所以这块就跳过了
环境安装好后我们设置一下host,方便访问GitHub
找到这个文件使用VScode打开,将上面的host添加进去,使用管理员身份将其保存
两行代码的QA实例
环境到此就配置好了,下面我们试试两行代码
# 导入gradio
import gradio as gr
# 导入transformers相关包
from transformers import *
# 通过Interface加载pipeline并启动阅读理解服务
gr.Interface.from_pipeline(pipeline("question-answering", model="uer/roberta-base-chinese-extractive-qa")).launch()
这样就运行好了
第二个实例:
# 导入gradio
import gradio as gr
# 导入transformers相关包
from transformers import *
# 通过Interface加载pipeline并启动文本分类服务
gr.Interface.from_pipeline(pipeline("text-classification", model="uer/roberta-base-finetuned-dianping-chinese")).launch()
和上面类似,会自动去下载加载模型
学习视频地址:【手把手带你实战HuggingFace Transformers-入门篇】基础知识与环境安装
项目地址:github