首页 置换 选车 估价 问答 生活 经销商 车管所 汽车资讯 汽车销量 车牌查询 今日油价 天气预报
您的位置: 首页 > 生活 > 科技 > 生信分析(生信分析必须了解的4种文件格式)
生信分析(生信分析必须了解的4种文件格式)
更新时间:2024-08-09 04:28:41

在做生物信息的过程中,经常需要进行各种文件格式。每一种生物软件都有固定的文件格式要求。因此,需要非常每一种数据的文件格式,从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。

fasta文件格式

FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。fasta文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列ID部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。

>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG

fastq文件格式

fastq文件格式是用来存储测序文件的,它是含有quality的fasta文件。

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA

JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG

IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC
  • 第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;

  • 第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;

  • 第三行:以‘ ’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);
    第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示。

质量值体系

生信分析(生信分析必须了解的4种文件格式)1

生信分析(生信分析必须了解的4种文件格式)2

从表中可以看到下限有33和64两个值,我们把加33的的质量值体系称之为Phred33,加64的称之为Phred64(Solexa的除外,它叫Selexa64)。不过,现在一般都是使用Phred33这个体系,而且33也恰好是ASCII的第一个可见字符('!')

sam格式介绍

sam文件主要用来存储短序列比对的结尾,即将测序数据定位到基因组上的表示形式。

生信分析(生信分析必须了解的4种文件格式)3

第一列:是reads ID
第二列:是flag标记的总和
第三列:比对到参考序列上的染色体号。
第四列:为在参考序列上的位置
第五列:比对的质量值,MAPQ
第六列:代表比对结果的CIGAR字符串
第七列:mate比对到的染色体号,若是没有mate,则是*
第八列:比对到参考序列上的第一个碱基位置
第九列:Template的长度,
第十列:为read的序列
第十一列:为ASCII码格式的序列质量;

VCF文件格式介绍

VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。

生信分析(生信分析必须了解的4种文件格式)4

1.CHROM [chromosome]: 染色体名称,
2.POS [position]: 参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置。
3.ID [identifier]: 突变的名称,
4.REF [reference base(s)]:参考染色体的碱基
5.ALT [alternate base(s)]: 与参考序列比较,发生突变的碱基,
6.QUAL [quality]: Phred标准下的质量值
7.FILTER [filter status]:使用其它的方法进行过滤后得到的过滤结果
8.INFO

文件格式介绍:https://genome.ucsc.edu/FAQ/FAQformat.html#format1



,
相关推荐RECOMMEND
excel表格一列如何快速求和(Excel怎么快速完成每列数据汇总求和)
今天小编跟大家分享一下Excel怎么快速完成每列数据汇总求和1.打开Excel文件2.点击下图选项(Excel工具箱,百度即可了解详细下载安装信息,本文这里就不做详细解说。)3.选择【统计与分析】4....
怎样把qq的文件保存到腾讯微云(只需几步轻松保存)
怎样把qq的文件保存到腾讯微云?首先登录自己的QQ账号,登陆进去之后,找到QQ右下角的一个图标,点击进去,现在小编就来说说关于怎样把qq的文件保存到腾讯微云?下面内容希望能帮助到你,我们来一起看看吧!...
电脑乘法怎么操作(电脑乘法如何操作)
电脑乘法怎么操作?方法一:在win菜单中找到计算器功能,使用计算器进行乘法运算可以通过点击数字然后再点击乘法,最后点击需要跟原先数字相乘的数字,再点击等于号就完成了电脑乘法运算的操作,我来为大家科普一...
h型钢有几种型号(H型钢的型号和分类有哪些)
H型钢型号有很多,不同厂家主要生产的型号也是不同的。H型钢是因断面和英文字母形状一样而得名的,还是一种截面面积分配更加优化,强重比更加合理的经济断面高效型材。因其具有的各种优势特点而被广泛的应用,如能...
隔离霜可以防止电脑辐射吗(隔离霜可以防止电脑辐射)
隔离霜可以防止电脑辐射吗?电脑除了辐射会对人体造成隔离霜伤害以外,电脑屏幕的静电效应会吸附大量空气中的微尘,今天小编就来聊一聊关于隔离霜可以防止电脑辐射吗?接下来我们就一起去研究一下吧!隔离霜可以防止...
word中双行合一(word红头文件双行合一技巧)
Hello大家好,我是帮帮。今天跟大家分享一下word红头文件双行合一技巧,专业样式排版设计,无脑套打应用。有个好消息!为了方便大家更快的掌握技巧,寻找捷径。请大家点击文章末尾的“了解更多”,在里面找...