摘要: RMA算法分三步:一、背景校正(没精力写了)二、归一化(没精力写了)三、计算表达值假设有5张芯片,这些芯片的某个探针组包含5个探针,它们的表达值如下: GeneChip 4 8 6 9 7 3 1 2 4 5Probe 6 10 7 12... 阅读全文
posted @ 2015-05-22 15:52 洗浄 阅读(4418) 评论(0) 推荐(0) 编辑
摘要: 一、版本3描述version版本号,设为3Cols列数Rows行数TotalX和Cols一样TotalY和Rows一样OffsetX无用,设置为0OffsetY无用,设置为0GridCornerUL左上角的XY坐标GridCornerUR右上角的XY坐标GridCornerLR右下角的XY坐标Gri... 阅读全文
posted @ 2015-05-22 15:36 洗浄 阅读(947) 评论(0) 推荐(0) 编辑
摘要: 访问:https://github.com/BiGCAT-UM/affyQC_Module,点击“DownloadZIP”,下载得到affyQC_Module-master.zip,解压得到一个affyQC_Module-master文件夹,打开affyAnalysisQC.R:修改:DATA.DI... 阅读全文
posted @ 2015-05-22 15:35 洗浄 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 聚类广泛用于数据分析。去年研究了一下R语言聚类树的绘图原理。以芯片分析为例,我们来给一些样品做聚类分析。聚类的方法有很多种,我们选择Pearson距离、ward方法。选择的样品有:"GSM658287.CEL","GSM658288.CEL","GSM658289.CEL","GSM658290... 阅读全文
posted @ 2015-05-22 15:26 洗浄 阅读(4836) 评论(0) 推荐(0) 编辑
摘要: 做芯片PCA主成分分析可以选择使用affycoretools包的plotPCA方法,以样品"GSM363445_LNTT.CEL"、"GSM362948_LTT.CEL"、"GSM363447_LNTT.CEL"、"GSM362949_LTT.CEL"、"GSM363449_LNTT.CEL"、... 阅读全文
posted @ 2015-05-22 15:01 洗浄 阅读(654) 评论(0) 推荐(0) 编辑
摘要: Affymetrix阵列包含一些控制探针组,用“AFFX”、“INTRON”、“EXON”注释。一、一些芯片的控制探针组是用“AFFX”开头的,没有“INTRON”和“EXON”探针组,如“HG_U95Av2”。获取“HG_U95Av2”的“AFFX”探针组名:library(affy)cdfn... 阅读全文
posted @ 2015-05-22 14:58 洗浄 阅读(1305) 评论(0) 推荐(0) 编辑
摘要: 为了简化问题,假设有3张芯片,每组数有9个探针:Data:2,4,6,7,9,10,4,7,8,39,5,3,2,5,7,9,10,3,126,4,3,2,7,8,1,2,6,9一、给3组数取2的对数Log2Data:1.0,2.0,2.5849626,2.807355,3.169925,3.321... 阅读全文
posted @ 2015-05-22 14:56 洗浄 阅读(1421) 评论(0) 推荐(0) 编辑
摘要: affyPLM包可以对芯片原始数据进行拟合回归,最后得到芯片权重(Weights)残差(Residuals)图、相对对数表达(RLE,Relativelogexpression)箱线图、相对标准差(NUSE,Normalizedunscaledstandarderrors)箱线图以样品GSM28... 阅读全文
posted @ 2015-05-22 14:54 洗浄 阅读(3083) 评论(0) 推荐(0) 编辑
摘要: 一组探针是否能被检测到,可以用检测值来表示。simpleaffy包的detection.p.val方法默认alpha1=0.05,alpha2=0.065。检测值小于alpha1为A(无,Absent),介于alpha1和alpha2之间为M(不确定,MarginalPresent),大于alp... 阅读全文
posted @ 2015-05-22 14:51 洗浄 阅读(438) 评论(0) 推荐(0) 编辑
摘要: RNA降解是影响芯片质量的一个很重要的因素,因为RNA是从5’开始降解的,所以理论5’的荧光强度要低于3’。RNA降解曲线可以表现这种趋势。以样品GSM286756.CEL和GSM286757.CEL为例:library(affy)rawDatatabmax.num891011131415162... 阅读全文
posted @ 2015-05-22 14:40 洗浄 阅读(2631) 评论(0) 推荐(0) 编辑
摘要: 一、大部分的基因都有beta-action基因和GAPDH基因,很多Affymetrix芯片都将它们设为一组观察RNA降解程度的内参基因。mRNA是按照5’至3’的顺序来降解的,通过比较它们3’相对于中间或者3’相对于5’的信号强度,可以很好地指示出试验质量。二、beta-action基因对应的探针... 阅读全文
posted @ 2015-05-22 14:35 洗浄 阅读(1025) 评论(0) 推荐(0) 编辑
摘要: 为了验证杂交的质量,Affymetrix公司加入了两类嵌入探针组:一、poly-A内参:包括lys、phe、thr、dap对应的探针组名称为:AFFX-r2-Bs-lys-3_at、AFFX-r2-Bs-dap-3_at、AFFX-r2-Bs-phe-3_at、AFFX-r2-Bs-thr-3_s_... 阅读全文
posted @ 2015-05-22 14:33 洗浄 阅读(817) 评论(0) 推荐(0) 编辑
摘要: R语言里的image方法可以绘制CEL文件的灰度图像。我们先来讨论image这个的函数:如:x0则R=255,这样就不会超出范围了。这样每个探针都有着对应的灰度了。以左上角为坐标(0,0),给每个探针绘制一个像素,得出了以下这张图:这张图的质量高很多。放大这张图的左上角:“GeneChipHG-... 阅读全文
posted @ 2015-05-22 14:27 洗浄 阅读(813) 评论(0) 推荐(0) 编辑
摘要: 相比DAT文件,网络上更支持CEL级别的文件。CEL已经把DAT图像转换成数据了,而且CEL比DAT所占空间小得多。介绍一下CEL文件的格式,CEL文件有文本文件(TextCelFile,版本3)、BinaryCelFile(二进制文件,版本4)、GenericCelFile(普通文件,版本1)... 阅读全文
posted @ 2015-05-22 14:18 洗浄 阅读(4048) 评论(0) 推荐(0) 编辑
摘要: DAT是芯片的原始扫描图像,如下图:注:这两张图来自《BayesianInferenceforGeneExpressionandProteomics》。A是U95Av2芯片的DAT图像,它包含640*640个特征。B放大了A的左上角,可以看到“GeneChipHGU95A”字样。上图中探针强度越... 阅读全文
posted @ 2015-05-22 14:15 洗浄 阅读(933) 评论(0) 推荐(0) 编辑
摘要: 有一篇文章“Evolvinggene/transcriptdefinitionssignificantlyaltertheinterpretationofGeneChipdata”,提到了“OurresultsdemonstratethattheoriginalAffymetrixprobese... 阅读全文
posted @ 2015-05-22 14:11 洗浄 阅读(1175) 评论(0) 推荐(0) 编辑
摘要: 有了探针排布图像的基础,我们就可以更好地理解CDF文件了。假如每个探针的位置用一个坐标表示,以左上角为(0,0),那么整张芯片的坐标就如下图(行数n必须等于列数m,这里共有n*m个探针):0,01,02,03,0…m,00,10,20,3…0,n那么这些探针怎么根据坐标对应到探针组呢?我们来看C... 阅读全文
posted @ 2015-05-22 14:02 洗浄 阅读(1556) 评论(0) 推荐(0) 编辑
摘要: R语言软件arrayanalysis(http://arrayanalysis.org/)提供了绘制探针排布图像的方法,读者可通过该图像更好地理解芯片的设计。图中的黑/灰色代表普通探针的PM、MM探针,深蓝/浅蓝色代表控制探针的PM、MM探针,红色代表无定义的探针(非PM,非MM)。不过用Jav... 阅读全文
posted @ 2015-05-22 13:58 洗浄 阅读(592) 评论(0) 推荐(0) 编辑
摘要: 基因芯片主要分为双通道cDNA芯片和高密度寡核苷酸芯片。双通道cDNA芯片:每个微阵列产生两个探针水平的数据集(红色通道和绿色通道)。高密度寡核苷酸芯片:每个微阵列产生一个探针水平的数据集。一些探针是匹配探针(Perfectmatch,PM),一些探针是错配探针(Mismatch,MM。不过有些芯片... 阅读全文
posted @ 2015-05-22 13:54 洗浄 阅读(1088) 评论(0) 推荐(0) 编辑