zdmlcmepl - 博客园

2016年12月8日

摘要： from nltk.tokenize import MWETokenizer tokenizer = MWETokenizer([('molecular','pathogenesis'), ('molecular','basis'), ('cognitive','assessment'),('cli 阅读全文

posted @ 2016-12-08 14:50 zdmlcmepl 阅读(185) 评论(0) 推荐(0)

2016年12月6日

使用beautiful soup解析xml

摘要：比如解析name surname.next_sibling实际上是换行符，所有用换行符的next_sibling 直接print x.given-names.text 无法解析given-names这种格式的参考文献 .next_sibling 和 .previous_sibling 在文档树中, 阅读全文

posted @ 2016-12-06 12:00 zdmlcmepl 阅读(664) 评论(0) 推荐(0)

2016年12月5日

mongodb下载以及连接

摘要： 1.下载mongodb安装包,官网下载速度比较慢，百度云安装包链接：http://pan.baidu.com/s/1geVQ8Xt 密码：8o5i 2.python 安装pymongo 我是在python的scripts目录下 pip install pymongo 3.安装mongodb，我是装在阅读全文

posted @ 2016-12-05 19:47 zdmlcmepl 阅读(1347) 评论(0) 推荐(0)

2016年12月1日

beautiful soup解析有空格的class

摘要：用Python写一个爬虫，用BeautifulSoup解析html。其中一个地方需要抓取下面两类标签：<dd class="ab " >blabla1</dd><dd class="ab cd" >blabla2</dd>第一类class的值的末尾有一个空格。第二类class的值中间有一个空格，而且阅读全文

posted @ 2016-12-01 21:27 zdmlcmepl 阅读(4739) 评论(0) 推荐(0)

2016年11月30日

爬取糗事百科的热门段子，以及热图链接

摘要： # -*- coding:utf-8 -*- import urllib import urllib2 from bs4 import BeautifulSoup import re import os page = 1 while page<10 : url = 'http://www.qiushibaike.com/hot/page/' + str(page) user... 阅读全文

posted @ 2016-11-30 20:25 zdmlcmepl 阅读(356) 评论(0) 推荐(0)

结果记录

摘要： ontology1 = ['molecular','pathogenesis','pathophysiology','physiological','genetic','epigenetic','tau']ontology2 = ['diagnosis','assessment','disease' 阅读全文

posted @ 2016-11-30 19:59 zdmlcmepl 阅读(126) 评论(0) 推荐(0)

2016年11月28日

安装自然语言处理工具Nltk以及初次使用

摘要：分词使用示范：使用MWETokenizer可以对词组做分词处理。 print tokenizer.tokenize('a little Testing testing a lot one two in spite of'.split()) import nltknltk.download() 出现阅读全文

posted @ 2016-11-28 19:31 zdmlcmepl 阅读(1767) 评论(0) 推荐(0)

2016年11月22日

AD文献分析整体框架和数据设计

摘要： 1 biopython ，可以自动获得NCBI的接口，ESearch可以获得文章ＵＭＩＤ，可以获得文献等具体信息 biopython的参考网站，http://biopython-cn.readthedocs.io/zh_CN/latest/ 2 获得UMID后，动态生成url爬取整个html页面，填阅读全文

posted @ 2016-11-22 11:49 zdmlcmepl 阅读(226) 评论(0) 推荐(0)

2016年9月19日

摘要：借鉴还有阅读全文

posted @ 2016-09-19 09:11 zdmlcmepl 阅读(313) 评论(0) 推荐(0)

dict，列表方法

摘要： dict.clear() 删除字典中所有元素 dict.copy() 返回字典(浅复制)的一个副本 dict.fromkeys(seq,val=None) 创建并返回一个新字典，以 seq 中的元素做该字典的键，val 做该字典中所有键对应的初始值(如果不提供此值，则默认为 None) dict. 阅读全文

posted @ 2016-09-19 09:04 zdmlcmepl 阅读(220) 评论(0) 推荐(0)

life is tough，so are you

公告