摘要: from nltk.tokenize import MWETokenizer tokenizer = MWETokenizer([('molecular','pathogenesis'), ('molecular','basis'), ('cognitive','assessment'),('cli 阅读全文
posted @ 2016-12-08 14:50 zdmlcmepl 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 比如解析name surname.next_sibling实际上是换行符,所有用换行符的next_sibling 直接print x.given-names.text 无法解析given-names这种格式的 参考文献 .next_sibling 和 .previous_sibling 在文档树中, 阅读全文
posted @ 2016-12-06 12:00 zdmlcmepl 阅读(651) 评论(0) 推荐(0) 编辑
摘要: 1.下载mongodb安装包,官网下载速度比较慢,百度云安装包链接:http://pan.baidu.com/s/1geVQ8Xt 密码:8o5i 2.python 安装pymongo 我是在python的scripts目录下 pip install pymongo 3.安装mongodb,我是装在 阅读全文
posted @ 2016-12-05 19:47 zdmlcmepl 阅读(1298) 评论(0) 推荐(0) 编辑
摘要: 用Python写一个爬虫,用BeautifulSoup解析html。其中一个地方需要抓取下面两类标签:<dd class="ab " >blabla1</dd><dd class="ab cd" >blabla2</dd>第一类class的值的末尾有一个空格。第二类class的值中间有一个空格,而且 阅读全文
posted @ 2016-12-01 21:27 zdmlcmepl 阅读(4709) 评论(0) 推荐(0) 编辑
摘要: # -*- coding:utf-8 -*- import urllib import urllib2 from bs4 import BeautifulSoup import re import os page = 1 while page<10 : url = 'http://www.qiushibaike.com/hot/page/' + str(page) user... 阅读全文
posted @ 2016-11-30 20:25 zdmlcmepl 阅读(346) 评论(0) 推荐(0) 编辑
摘要: ontology1 = ['molecular','pathogenesis','pathophysiology','physiological','genetic','epigenetic','tau']ontology2 = ['diagnosis','assessment','disease' 阅读全文
posted @ 2016-11-30 19:59 zdmlcmepl 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 分词使用示范:使用MWETokenizer可以对词组做分词处理。 print tokenizer.tokenize('a little Testing testing a lot one two in spite of'.split()) import nltknltk.download() 出现 阅读全文
posted @ 2016-11-28 19:31 zdmlcmepl 阅读(1696) 评论(0) 推荐(0) 编辑
摘要: 1 biopython ,可以自动获得NCBI的接口,ESearch可以获得文章UMID,可以获得文献等具体信息 biopython的参考网站,http://biopython-cn.readthedocs.io/zh_CN/latest/ 2 获得UMID后,动态生成url爬取整个html页面,填 阅读全文
posted @ 2016-11-22 11:49 zdmlcmepl 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 借鉴 还有 阅读全文
posted @ 2016-09-19 09:11 zdmlcmepl 阅读(301) 评论(0) 推荐(0) 编辑
摘要: dict.clear() 删除字典中所有元素 dict.copy() 返回字典(浅复制)的一个副本 dict.fromkeys(seq,val=None) 创建并返回一个新字典,以 seq 中的元素做该字典的键,val 做该字 典中所有键对应的初始值(如果不提供此值,则默认为 None) dict. 阅读全文
posted @ 2016-09-19 09:04 zdmlcmepl 阅读(204) 评论(0) 推荐(0) 编辑