2017 年 12月随笔档案 - 遗世独立的愚公

利用毒株的accession号，批量下载fasta格式的文件

摘要：一、安装好Entrez Driect 见：http://www.cnblogs.com/lmt921108/p/8087474.html 二、在NCBI官网找到需要下载的文件的accession号二.创建bash脚本文件 1.下载全基因组fasta序列(get_comseq.sh) 运行：bash 阅读全文

posted @ 2017-12-28 16:36 遗世独立的愚公阅读(1899) 评论(0) 推荐(0)

合并表达矩阵--pandas

摘要：方法一：（见方法三的编程版） 1.表达矩阵56sr.count 57sr.count 2.利用pandas的合并函数进行合并，注意需要取并集 datamerge=pd.merge(data1, data2, on='gene', how='outer') 3.将缺失值重新赋值 datamerge.f 阅读全文

posted @ 2017-12-26 12:58 遗世独立的愚公阅读(2306) 评论(0) 推荐(0)

linux command line 利用Entrez Direct下载NCBI数据

摘要：一、软件的安装 1.软件下载： curl ftp://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.zip -O （熟悉curl下载文件的方法，见http://www.cnblogs.com/duhuo/p/5695256.html） 2.解压 u 阅读全文

posted @ 2017-12-22 20:03 遗世独立的愚公阅读(2904) 评论(0) 推荐(0)

megacc的进行多序列比对

摘要：1.软件的安装：网站：http://www.megasoftware.net/ windows上安装，下载windows-command line（cc）版本的，格式为zip，解压之后，里面有两个主程序，MEGACC和MEGA-PROTO，安装完后之后，将megacc的环境变量添加到系统的环境变量阅读全文

posted @ 2017-12-21 19:59 遗世独立的愚公阅读(4085) 评论(1) 推荐(0)

python文本处理---计算fasta文件中不同氨基酸的数目

摘要：#::!/usr/bin/python3 #-*- coding:utf-8 -*- #计算fasta文件中各个氨基酸的含量 import sys args=sys.argv f=open(args[1], 'r') fw=open('out.txt', 'w') line=f.read() txt=''.join(line.split('\n')[1:]) #可以得到氨基酸序... 阅读全文

posted @ 2017-12-13 20:12 遗世独立的愚公阅读(1251) 评论(0) 推荐(0)

python中的collections模块

摘要：>>> c = Counter('abcdeabcdabcaba') # count elements from a string | | >>> c.most_common(3) # three most common elements | [('a', 5), ('b', 4), ('c', 3)] | >>> sorted(c) ... 阅读全文

posted @ 2017-12-12 19:38 遗世独立的愚公阅读(245) 评论(0) 推荐(0)

python文本处理---fasta文件提取指定ID的序列

摘要：利用python脚本，提取指定ID名称的序列阅读全文

posted @ 2017-12-12 14:09 遗世独立的愚公阅读(4224) 评论(0) 推荐(0)

python正则表达式match，search，find的使用方法

摘要：1.使用match()匹配字符串： match()函数试图从字符串的开始部分对模式进行匹配，匹配对象的group()方法能够用于显示那个成功的匹配。 2.使用search()函数匹配字符串 search()的工作方式和match()完全一样，不同之处在于search()会用它的字符串参数，在任意阅读全文

posted @ 2017-12-11 19:02 遗世独立的愚公阅读(9493) 评论(0) 推荐(0)

python文本处理--定位motif在fasta文件上的位置，并给出位置信息

摘要：输出结果： [(23, 27), (55, 59), (70, 74), (78, 82)] 阅读全文

posted @ 2017-12-11 17:06 遗世独立的愚公阅读(995) 评论(0) 推荐(0)

python文本处理练习-4

摘要：seq=['A', 'C', 'G', 'T', 'S'] 计算出seq中两两排列组合，并以列表的方式排列。阅读全文

posted @ 2017-12-11 16:07 遗世独立的愚公阅读(248) 评论(0) 推荐(0)

python文件处理，去除内含子，拼接外显子

摘要：DNA序列： ATGGTCTACATAGCTGACAAACAGCACGTAGCAATCGGTCGAATCTCGAGAGGCATATGGTCACATGATCGGTCGAGCGTGTTTCAAAGTTTGCGCCTAG 内含子1：ATCGGTCGAA 内含子2：ATCGGTCGAGCGTGT 剪切之后的阅读全文

posted @ 2017-12-11 15:33 遗世独立的愚公阅读(922) 评论(0) 推荐(0)

python处理fasta文件，ID和序列放在一行

摘要：#!/usr/bin/python #-*- coding:utf-8 -*- "处理fasta文件，将ID号和序列放在一行" import sys with open(sys.argv[1]) as f: fw=open('out.fasta', 'w') line=f.read() line=line.replace('\n', '').replace('>', '\... 阅读全文

posted @ 2017-12-11 15:13 遗世独立的愚公阅读(4684) 评论(0) 推荐(0)

python文本处理，将RNA转换为蛋白质

摘要：def translate_rna(sequence): # 密码子表 codonTable = { 'AUA': 'I', 'AUC': 'I', 'AUU': 'I', 'AUG': 'M', 'ACA': 'T', 'ACC': 'T', 'ACG': 'T', 'ACU': 'T', 'AAC': 'N' 阅读全文

posted @ 2017-12-11 15:08 遗世独立的愚公阅读(967) 评论(0) 推荐(0)

python文本处理练习-3

摘要："计算数组中最小的两个数的和" #!usr/bin/python3 #-*- coding:utf-8 -*- numbers=np.array((4,3,7,5,6)) def sum_two_smallest_numbers(numbers): numbers.sort() return numbers[0]+numbers[1] 阅读全文

posted @ 2017-12-11 15:07 遗世独立的愚公阅读(259) 评论(0) 推荐(0)

python计算蛋白质的质量

摘要：用法： python3 proweight.py filename 阅读全文

posted @ 2017-12-11 15:05 遗世独立的愚公阅读(772) 评论(0) 推荐(0)

python寻找突变位点

摘要：思路：寻找序列两个序列的差异阅读全文

posted @ 2017-12-11 14:39 遗世独立的愚公阅读(1604) 评论(0) 推荐(0)

python在fasta文件中寻找motif

摘要：在匹配模式中?可以查找重叠区域。 ###上述的结果为 (2,5) (4,7) (10,13) ###假如不用？输出结果为： (2,5) (10,13) 从上述结果可以看出，重叠的区域无法查找出来，我也不晓得为啥？？？？阅读全文

posted @ 2017-12-11 14:37 遗世独立的愚公阅读(669) 评论(0) 推荐(0)

biopython文件处理：fastq文件转换为fasta文件

摘要：#!/usr/bin/python #-*- coding:utf-8 -*- from Bio import SeqIO def fq2fa(my_file): with open(my_file) as handle: record=SeqIO.parse(handle, "fastq") SeqIO.write(record, "./... 阅读全文

posted @ 2017-12-11 14:35 遗世独立的愚公阅读(2597) 评论(0) 推荐(0)

python文件处理fasta文件，多行转换为一行

摘要："""将多行文件转换为一行例： >001 AAGTCCGGTAA GGCTAGCTAAC TTCGAACGACA >002 GGCTAGCATGA CACATCGACAC CAGTAGCATCT 转换为： >001 AAGTCCGGTAAGGCTAGCTAACTTCGAACGACA >002 GGCTAGCATGACACATCGACACCAGTAGCATCT """ fr=open('test... 阅读全文

posted @ 2017-12-11 14:30 遗世独立的愚公阅读(4371) 评论(0) 推荐(0)

python文本处理联系-2

摘要：""" 当add已有元素时，则不会有任何变化，这也是集合唯一性的表现，现在有一个全是字符串的集合，你设计程序，当加入一个字符串是集合中已有元素时，会自动在字符串后面加上“_1”再加入元素中，如 set1 = {'qwe', 'asd', 'z'} #加入'qwe',实际加入qwe_1，集合变成 {'qwe_1', 'qwe', 'asd', 'z'} """ set1 = {'qwe_1',& 阅读全文

posted @ 2017-12-11 14:03 遗世独立的愚公阅读(232) 评论(0) 推荐(0)

python文本处理，计算fasta文件k-mer子串

摘要：#例如： dna = "GATGGAACTTGACTACGTAAATT" ##输出结果： """['GAT', 'ATG', 'TGG', 'GGA', 'GAA', 'AAC', 'ACT', 'CTT', 'TTG', 'TGA', 'GAC', 'ACT', 'CTA', 'TAC', 'AC 阅读全文

posted @ 2017-12-11 14:01 遗世独立的愚公阅读(810) 评论(0) 推荐(0)

python文本处理小练习-1

摘要："""一段DNA序列，每3个字符作为一个整体，放入一个列表中，若最后不够3个，则剩下的作为一个整体。例如： dna = "GATGGAACTTGACTACGTAAATT" 结果为： ['GAT', 'GGA', 'ACT', 'TGA', 'CTA', 'CGT', 'AAA', 'TT'] """ dna = "GATGGAACTTGACTACGTAAATT" t= 阅读全文

posted @ 2017-12-11 13:59 遗世独立的愚公阅读(300) 评论(0) 推荐(0)

python文件处理，将DNA序列转换为RNA序列

摘要：1 #!/usr/bin/python 2 #-*- coding:utf-8 -*- 3 "将DNA序列转换为RNA序列，即将T转换为U即可，利用字符串的replace方法" 5 f=open('./test.txt', 'r') 6 line=f.read() 7 dna2rnaline=line.replace('T', 'U') 8 f.close() 9 f=open... 阅读全文

posted @ 2017-12-11 13:48 遗世独立的愚公阅读(1508) 评论(0) 推荐(0)

python文件处理，得到DNA的互补链或反向互补链

摘要：#!/usr/bin/python3 #-*-coding:utf-8 -*- "得到DNA的互补链或者反向互补链" f=open('./test.txt') line=f.read() transline=line[::-1].replace('A','t').replace('T','a').replace('G','c').replace('C','g').upper() f.close(... 阅读全文

posted @ 2017-12-11 13:46 遗世独立的愚公阅读(1420) 评论(0) 推荐(0)

利用python计算fasta文件中ATGC的含量

摘要：1 #!/usr/bin/python3 2 #-*- coding:utf-8 -*- 3 "计算fatsa文件中的不同类型的碱基含量" 4 f=open('./test.txt','r') 5 line=f.read() 6 dict={} #创建一个空字典 7 for i in ['A', 'T', 'G', 'C']: 8 dict[i]=line.count(... 阅读全文

posted @ 2017-12-11 13:39 遗世独立的愚公阅读(1166) 评论(0) 推荐(0)

爬行的乌龟

12 2017 档案

公告