PLINK文件格式是Plink软件使用的一种常见的文件格式,用于存储基因型数据和相关信息。PLINK文件格式包括两个主要文件:PED文件和MAP文件。

  1. PED文件(.ped):PED文件是以纯文本形式存储的基因型数据文件,每一行表示一个个体的基因型信息。PED文件的每一列对应于一个基因座(SNP),而每两列对应于一个基因座的两个等位基因。PED文件的列包括以下内容:

    • Family ID:家庭/群体的唯一标识符。
    • Individual ID:个体的唯一标识符。
    • Paternal ID:父亲的ID。
    • Maternal ID:母亲的ID。
    • Sex:个体的性别(1表示男性,2表示女性,0表示未知)。
    • Phenotype:个体的表型信息(通常用于关联分析)。
    • Genotypes:基因型数据(通常是两个等位基因的字符表示)。
  2. MAP文件(.map):MAP文件是PED文件中基因座的描述文件,它包含了基因座的物理位置、染色体编号和SNP名称等信息。MAP文件的每一行对应一个基因座,包括以下内容:

    • Chromosome:染色体编号。
    • SNP ID:SNP的唯一标识符。
    • Genetic distance:基因座的遗传距离(一般使用cM)。
    • Physical position:基因座的物理位置(一般使用基对数)。

 

PLINK二进制文件格式BED、BIM和FAM文件

这种二进制文件格式是对PLINK文件格式(PED和MAP)的一种压缩和优化表示,用于存储大规模基因型数据。

  1. BED文件(.bed):BED文件是PLINK二进制文件格式中的一部分,用于存储基因型数据的二进制编码。它以二进制形式存储了基因型的信息,每个SNP的基因型被编码为两个比特(位),表示三种可能的基因型:00、01和11。BED文件还包含其他的元数据,如样本数、SNP数等。

  2. BIM文件(.bim):BIM文件是PLINK二进制文件格式中的另一部分,用于存储基因座的描述信息。它包含了基因座的物理位置、染色体编号、SNP名称等信息,与PED文件中的MAP文件相似。BIM文件以纯文本形式存储,每一行对应一个基因座。

  3. FAM文件(.fam):FAM文件是PLINK二进制文件格式中的个体文件,用于存储每个个体的相关信息。它包含了个体的家庭ID、个体ID、父亲ID、母亲ID、性别和表型信息。FAM文件以纯文本形式存储,每一行对应一个个体。

posted on   黑逍逍  阅读(1536)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!



点击右上角即可分享
微信分享提示