您的位置:首页 > 房产 > 家装 > 转录组和基因芯片GSE数据RAW.tar压缩包下载和多样本整合处理教程

转录组和基因芯片GSE数据RAW.tar压缩包下载和多样本整合处理教程

2024/12/23 6:17:28 来源:https://blog.csdn.net/qq_40073899/article/details/140359161  浏览:    关键词:转录组和基因芯片GSE数据RAW.tar压缩包下载和多样本整合处理教程

转录组和基因芯片GSE数据集的RAW.tar压缩包下载和多样本整合处理教程

GSEXXX_RAW.tar压缩包手动下载解压

前情回顾

关于OmicsTools根据GSE编号自动下载和提取GEO表达数据

根据GSE编号自动下载和提取GEO表达数据的窗口截图

194ab2fb5c5a9929dfec85340bd6680e.jpeg

自动下载和提取整理到结果文件

14858920cfc14a8af877d975be4d1ef6.jpeg

该模块的分析教程

GEO中有很多GSE数据集可以直接用数据集的GSE编号直接下载提取到表达矩阵,这种数据集的下载处理我也出了一期教程,该教程的链接地址为: https://zhuanlan.zhihu.com/p/708053447

该教程的网页示意图如下:

f82834fabd13751b158fdfc4e2230420.jpeg

关于OmicsTools根据GSE编号自动下载和提取GEO表达数据适用的场景和不适用的场景

series_matrix.txt.gz文件体积太小,用OmicsTools自动下载模块无法提取出表达矩阵

但是对于GEO平台没有给出一个有效的series_matrix表达矩阵,使用OmicsTools的自动下载模块或者GEOquery R包都是没法直接下载提取到数据集的基因表达矩阵的,比如给的该series_matrix的表达矩阵文件大小只有几KB,这种情况下的series_matrix里基本上是没有基因表达矩阵数据的,文件大小太小了,一个有效的series_matrix.txt.gz文件大小应该在1M以上,这样的文件里才可能有有效的基因表达矩阵内容。我们以GSE206758这个数据集来跟大家解释一下,这样的Series_matrix.txt.gz文件,为啥提取不到基因表达矩阵?

f037b1c001e4df5170b300f31276ceee.jpeg

bf84de968e7b9c0e1ac1b5dd24ac052b.jpeg

可以看到这里的series_matrix.txt.gz表达矩阵文件只有几KB大小,直接点击上面有蓝色下划线的series_matrix文件名我们就能直接下载到这样的series_matrix矩阵文件,在下载完后,我在解压一下这个gz文件给大家看看里面有没有表达矩阵内容可以被获取。

5f52fde24d121b33b71650fae46e4b73.jpeg

这里的series_matrix.txt.gz下载解压后的内容如下:

b8df29a9c41611bd01f0a2aba11869cc.jpeg

可以看到这里面除了有一些数据集的注释信息外,是基本上没有任何表达矩阵的数据存在的,所以这种情况是无法自动提取出数据集的基因表达矩阵的。

series_matrix.txt.gz文件体积太小,用OmicsTools自动下载模块可以提取出表达矩阵

而对于更大一点的series_matrix.txt.gz的矩阵文件,是可以用我们的OmicsTools生信软件自动下载提取出基因表达矩阵的,以GSE61763数据集为例:

0bcf28f13dbe4a6d8ae67e50b7c8b016.jpeg

我们看到GSE61763的series_matrix矩阵的文件有7.3M,这个就比前面的那种几KB的文件大的多了,一般这种稍大的series_matrix文件我们都是能直接提取出表达矩阵的。

8d94f6fbb91b9add0a8a98c825f53c06.jpeg

我们看到这个GSE61763数据集的series_matrix的压缩包下载后是7.3M,解压后是21M,也是比较大的文件了。

我们解压后用excel表打开并看看里面的内容:

f5c127c5be83971fb71cd0acbd1d5252.jpeg

可以看到,像GSE61763这样更大一些的series_matrix表达矩阵,里面除了前面一些行的注释信息外,还包括了每个样本的表达数据信息,这样的series_matrix矩阵就会被我的OmicsTools根据GSE数据集编号自动下载和提取出数据集的基因表达矩阵的。

对于series_matrix.txt.gz文件太小,没有有效的表达数据情况的下载和处理讲解

对于GEO平台上托管的很多GSE数据集而言,一般对于series_matrix.txt.gz文件太小,没有有效的表达数据情况,都会在该GSE数据集的网页下方有表达文件的下载链接,虽然文件名可能千奇百怪,各种各样,一般我们都可以手动下载这些文件后,对这些文件进行进一步的处理,来提取出这些文件的表达矩阵。

而是在GEO网页中给了一个GSEXXX_RAW.tar压缩包的这种或是在GEO中给了一个FPKM表达矩阵文件或counts表达文件的这类,用我的OmicsTools生信电脑软件的自动下载模块是没法直接下载到文件和提取出表达矩阵的,这类文件都是需要手动下载的。

从GEO中手动直接下载到表达矩阵文件的情况

93c0e79257a3d033bd848a134bbf62ea.jpeg

从GEO中手动GSEXXX_RAW.tar压缩包文件的情况

2058c44adc8311ab0738688bd99f08a5.jpeg

鉴于如果GEO网页中能直接下载到一个表达矩阵的文件的情况比较简单,不需要过多处理,今天重点跟大家讲的是GEO中很多时候需要下载一个GSEXXX_RAW.tar压缩包,并对该压缩包进行解压和合并每个GSM样本的表达数据成一个表达矩阵这种更复杂的情况。

GEO中的GSEXXX_RAW.tar压缩包手动下载解压

GSEXXX_RAW.tar压缩包手动下载

01012dc6ecc833a4ada5f530541fb096.jpeg

GSEXXX_RAW.tar压缩包的解压

以GSE228854数据集为例,我们下载到了GSE228854_RAW.tar压缩包后,需要把压缩包里面的子文件都解压到一个GSE228854_RAW目录下,目录内是每个GSM样本的表达数据的单个文件,注意,大家一定要这样进行解压操作,就是不要直接把GSE228854_RAW.tar中的文件都解压到当前目录,而是解压到GSE228854_RAW目录下,这样用OmicsTools进行分析的时候会更容易识别和读取和执行。

把GSE228854_RAW.tar压缩包正确解压好的文件示意图如下:

452a143dec9cf3d05ad01a2e260a2ef2.jpeg

对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下RNAseq测序数据的多样本的合并处理

教学视频教程

RNAseq测序数据目录下多样本的合并处理: https://www.bilibili.com/video/BV1p7421o7nX/

参数解释

func_gene__name__col: 基因id所在的列

func_value__col__position: 表达值所在的列

func_select__strs: 对含有该字符串的样本进行整合

nested_function: 是否嵌套函数

run_file_path: 要进行数据处理的文件路径

run_read_file: 是否要读取文件,默认是FALSE

run_add__res__dir: 是否要给出保存文件的前缀,默认是TRUE

提交(提交按钮,点击后会运行该分析)

参数已经给出的默认值

func_gene__name__col: Geneid ;

func_value__col__position: 7 ;

func_select__strs: MM ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/GSE206758_RAW/ ;

run_read_file: FALSE ;

run_add__res__dir: TRUE

D:/omics_tools/demo_data/GSE206758_RAW/目录下的文件信息

8f0fbda6e216c5a5b59ac2c6918daccc.jpeg

运行状态显示

执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE206758_RAW_last_final_run_res_log.csv

窗口截图

ad63ba823794623ef4a6b00b73d49532.jpeg

运行完成的显示信息

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE206758_RAW_last_final_run_res_log.csv

运行完的结果展示

运行完产生的文件

7434eb6c73ea6865c2aa369cc6670821.jpeg

合并的表达矩阵结果

2e5b0efe02ec00c6fb207c75aa21fef0.jpeg

对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下CEL芯片数据的多样本的合并处理

该部分的视频教学教程

CEL芯片数据目录下多样本的合并处理: https://www.bilibili.com/video/BV1Bm421N7kK/

D:/omics_tools/demo_data/GSE228854_RAW/ 下的文件内容

b1775e56af302e06290117fd98c9445d.jpeg

运行窗口展示

caa3566c0739579e8cfb6a7a9a00e330.jpeg

参数解释

func_method : CEL芯片标准处理的方法

nested_function: 是否嵌套函数

run_file_path:要进行数据处理的文件路径

run_read_file: 是否要读取文件,默认是FALSE

run_add__res__dir: 是否要给出保存文件的前缀,默认是TRUE

提交

参数已经给出的默认值:

func_method: rma ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/GSE228854_RAW/ ;

run_read_file: FALSE ;

run_add__res__dir: TRUE

运行状态显示内容

执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE228854_RAW_last_final_run_res_log.csv

运行完成状态显示内容:

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE228854_RAW_last_final_run_res_log.csv

运行完成的结果文件

c3d1ccfb3cba2970d9df7a880dcaec94.jpeg

查看RNA降解情况

9c4393dc062bcb36495eb64eb14ced80.jpeg

未标准化前原始数据的数据质量展示

c8566055c6990215d4054f84cefd8e17.jpeg

14ae44c1bfbb063822fc5db23a122f11.jpeg

取log2的结果

811a472932929dd23ef0fe4bf71be9fe.jpeg

9e05e186c16409567c1595c2ddb427bd.jpeg

归一化处理后的结果

bf2ad9a40a32b59de7a5ab9adee61167.jpegc1b9712ddb863e1c8568c6c37b5c873a.jpeg

样本整合后的表达矩阵

39d0ffaffc9416a83facd427ca602936.jpeg

对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下非CEL芯片数据的多样本的合并处理

该部分的教学视频教程

非CEL芯片数据目录下多gsm样本的合并处理: https://www.bilibili.com/video/BV1Yy411b7Uy/

参数解释

func_data__source: 芯片检测平台来源

func_gse__id: GSE数据集编号

nested_function:是否嵌套函数

run_file_path:要进行数据处理的文件路径

run_read_file:是否要读取文件,默认是FALSE

run_add__res__dir:是否要给出保存文件的前缀,默认是TRUE

提交

参数给定的默认值:

func_data__source: agilent ;

func_gse__id: GSE209929 ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/GSE209929_RAW/ ;

run_read_file: FALSE ;

run_add__res__dir: TRUE

运行窗口

8a3dc05827e2719e52ef0b676b5f3d6d.jpeg

D:/omics_tools/demo_data/GSE209929_RAW/目录中的文件内容

08f7ee41a134519788ccc4f61f8ccbc3.jpeg

运行中的状态信息

分析正在执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 运行结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE209929_RAW_last_final_run_res_log.csv

运行完成的状态信息

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE209929_RAW_last_final_run_res_log.csv

运行完成的结果展示

结果文件列表

a4ac7892f07834b41a91fef5f6f037bb.jpeg

未标准化前的表达数据分布

a2629e2fa3a4b6f7216e0f58b3c867fe.jpege07f40d4ffaa316b007bde13c784176f.jpeg

标准化之后的数据分布

c39d80bdf7e4b8c6b5aa2e6718f7d05a.jpeg180e0b516375ad807f66ac5849a17711.jpeg

标准化后整合的表达矩阵

f1bfb25abfe0f7ab395781e29cbdb688.jpeg

对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下RCC芯片数据的多样本的合并处理

该部分的教学视频教程

RCC芯片数据目录下多样本的合并处理: https://www.bilibili.com/video/BV1LJ4m1g7Pq/

参数详解

func_raw_data_dir:RCC芯片样本数据所在的RAW目录

nested_function: 是否嵌套函数

run_file_path: 要进行数据处理的文件路径

run_read_file: 是否要读取文件,默认是FALSE

run_add__res__dir: 是否要给出保存文件的前缀,默认是TRUE

提交

参数的默认值

func_raw_data_dir: D:/omics_tools/demo_data/GSE236951_RAW/ ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/rcc_sample_info.csv ;

run_read_file: FALSE ;

run_add__res__dir: TRUE

运行窗口展示

f8507b572d5624180452e0d099a0c7a4.jpeg

D:/omics_tools/demo_data/GSE236951_RAW/中的文件内容

91a0e032fa77ce82456983dbc0753068.jpeg

D:/omics_tools/demo_data/rcc_sample_info.csv中的文件内容

458bda89cf39b4006cb7d7a770b6b21b.jpeg

运行状态显示信息

执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\rcc_sample_info_last_final_run_res_log.csv

运行完成显示信息

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\rcc_sample_info_last_final_run_res_log.csv

运行结果文件列表

2440d8a19a68d9ba3eee174c99bedc47.jpeg

多样本整合标准化后的表达矩阵

cb15912ee12068896385b8572561a17b.jpeg

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com