DrQA安装手册

DrQA安装手册

  2017年,斯坦福大学和 Facebook人工智能研究所在 arXiv 发布了一个基于维基百科的开放域问题问答系统 DrQADrQA 是一个开放域的问答系统 DrQA 系统输入一段文本,然后提一个答案能在该文本中找到的问题,DrQA 就能准确地给出这个问题的答案不基于上下文逻辑推理

  DrQA模型主要分为两部分,第一部分Retriever和第二部分ReaderRetriever的作用是从众多文章中选择出可能包含答案的候选文章,而Reader则从候选文章中提取出问题的答案。DrQA具体的原理可以见论文。

    论文地址:https://arxiv.org/abs/1704.00051

 开源地址:https://github.com/facebookresearch/DrQA

以下为DrQA系统的安装流程:

  1. 安装Python3.5

     DrQA需要Python3.5以上,Python3.5的安装就不再叙述.

    2.安装Anaconda:

   Anaconda是一个用于科学计算的Python发行版,支持Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行packageenvironment的管理,并且已经包含了Python和相关的配套工具。 安装步骤如下:

    1https://repo.continuum.io/archive/index.html上下载对应版本的Anaconda版本,解压到指定位置并进入目录

   2 运行命令 bash Anaconda3-5.2.0-Linux-x86_64.sh 进行安装

   3 运行 echo 'export PATH="~/anaconda2/bin:$PATH"' >> ~/.bashrc 进行配置。

  4运行命令 source ~/.bashrc 使配置生效

   3.安装PyTorch

  PyTorch一个基于Python的科学计算包,是DrQA的必备计算包。注意DrQA官网上如此描述:DrQA requires Linux/OSX and Python 3.5 or higher. It also requires installing PyTorch (version 0.4.0 is not supported yet),所以建议安装0.4以下的PyTorch,可以访问https://pytorch.org/ 根据自身相应的配置生成安装命令。

  在装了Anaconda后,仅需 conda install pytorch=0.3.0 -c soumith 即可自动安装PyTorch及依赖包。

   4.安装DrQA

  这部分在DrQAgithub上有很详细的介绍。具体流程如下:

  1)安装DrQA及依赖包

  git clone https://github.com/facebookresearch/DrQA.git 

  cd DrQA

  pip install -r requirements.txt 

  python setup.py develop

    requirements.txt记录了DrQA系统依赖的各种包,执行命令后便会自动下载安装并更新

     2)安装tokenizer

  tokenizer可以有两种选择,一种是斯坦福的CoreNLP,另外一种是Spacy。官网描述如下:

  If you use the CoreNLPTokenizer or SpacyTokenizer you also need to download the Stanford CoreNLP jars and spaCy enmodel, respectively. If you use Stanford CoreNLP, have the jars in your java CLASSPATH environment variable, or set the path programmatically with:

  import drqa.tokenizers

  drqa.tokenizers.set_default('corenlp_classpath','/your/corenlp/classpath/*')

  DrQA默认的tokenizerCoreNlp,可以运行命令 ./install_corenlp.sh进行下载安装。
安装好后可以选择自动添加到环境变量,但是有时DrQA自动的方式添加到环境变量不正确,建议还是按照官网的方法手动添加。如有需要用spacy的可以运行命令 python -m spacy download en
  3)下载数据集,词向量等

  运行命令即可自动下载数据集和词向量bash ./download.sh下载量比较大,大约7.5G

 


 

  至此DrQA安装完成运行python scripts/pipeline/interactive.py来尝试DrQA的demo

 

posted @ 2018-08-27 17:50  沙拉七酱  Views(1058)  Comments(0Edit  收藏  举报