【医学数据库专栏】第二期-lncRNA数据库的集大成者lncSEA数据库
2022.01.12
969次

长链非编码 RNA (lncRNA) 已被证明在转录过程和各种生物学功能中发挥重要作用。近年来,随着高通量测序技术的快速发展,lncRNA的研究也越渐火热。许多lncRNA数据库和工具也随之建立。

例如NONCODE、LNCipedia专注于为lncRNA提供基本注释信息。LncRNADisease和Lnc2Cancer收集lncRNA与疾病之间关系的详细信息。LncRNASNP和LncVar提供了与其他功能元件相互作用的lncRNA信息。StarBase和LncBase提供了lncRNA靶标的信息。这些数据库都是研究lncRNAs的宝贵资源。

但也存在一些行业痛点,RNAdb、StarBase等网址相继突然关闭;多个LncRNA数据库停止更新,如曾经号称百科全书的LNCipedia数据库也在2015年之后就停止更新,数据库基层训练数据集偏小型,可靠度不足;缺乏lncRNA上游转录调控信息等。目前,lncRNA,没有像mRNA有NCBI的Refseq Gene,miRNA有mirbase,建立唯一公认ID,这样大一统天下的LncRNA数据库,建立一个全面的人类lncRNA集集合尤为迫切。

这里给大家介绍一个目前lncRNA数据库的航母级,多个lncRNA数据库的集大成者。

2020年10月,哈尔滨医科大学大庆校区的李春权教授课题组在国际著名杂志《Nucleic Acids Research》上发布了一项重磅数据库LncSEA(https://doi.org/10.1093/nar/gkaa806)。

LncSEA(http://bio.liclab.net/LncSEA/index.php),旨在记录人类 lncRNA 集的大量可用资源,并提供 lncRNA 的注释和富集分析。LncSEA 支持超过 40 000 个 lncRNA 参考集,涵盖 18 个类别和 66 个子类别,涵盖超过 50 000 个 lncRNA。我们不仅收集了基于下游调控数据源的lncRNA集,还通过整合TF ChIP-seq、DNase-seq、ATAC-seq和H3K27ac,鉴定了大量受上游转录因子(TFs)和DNA调控元件调控的lncRNA集芯片序列数据。重要的是,LncSEA 提供了与上游监管者和下游目标相关的 lncRNA 集的注释和富集分析。综上所述,LncSEA 是一个强大的平台,为用户提供多种类型的 lncRNA 集,并支持 lncRNA 注释和富集分析。


01.lncSEA_db.jpg


lncRNA 集的集合和 LncSEA 的用户界面。LncSEA 提供 18 种参考集,包括 miRNA、药物、疾病、甲基化模式、癌症特异性表型、lncRNA 结合蛋白、癌症标志、亚细胞定位、存活、eQTL、细胞标记、增强子和超级增强子、转录因子、可及染色质、smORF、外泌体和保护。LncSEA 支持多种功能,包括搜索、下载、浏览和富集分析。LncSEA 中还提供了 ID 转换、ceRNA 网络、lncRNA 表达和统计。


02.lncSEA_db.jpg


LncRNA受不同的调控元件和 TF 的调控,它们与其调控区域结合。由于数据资源和技术限制,很少有数据库提供 lncRNA 的上游监管信息。我们通过收集和处理大量的 ChIP-seq/DNase-seq/ATAC-seq 数据,构建了四类具有上游调控信息的 lncRNAs,包括“增强子”、“超级增强子”、“无障碍染色质”和“转录因子”。


03.lncSEA.png


重要的是,LncSEA 提供了与上游监管者和下游目标相关的 lncRNA 集的注释和富集分析功能。

平常做lncRNA的注释和功能富集时,一直缺少一个像做基因富集分析时那样的sets,对lncRNA进行功能富集分析时常需要做lncRNA与基因间的共表达,然后再根据共表达的基因去做富集分析。而这样的操作也是无奈之举会增加假阳性的同时,也会落下一些重要的结果。基于本批数据进行预测基因间的共表达,受本批测序中的样本数量过少,会大大影响计算结果。而LncSEA通过收集全球数据集,正是解决了这一点。


一、实操演示1——lncRNA富集分析


04.lncSEA_db.jpg


1)输入lncRNA的基因名称列表,运行;

2)生成富集在各个数据集的富集结果,结果为显著富集在非小细胞肺癌中;如第一行,该数据集综述为147个基因,现输入的lncRNA在小细胞肺癌数据集中有31个,计算Jaccard值,为相对于背景的富集因子;


05.lncSEA_db.jpg


3)生成富集的气泡图,图片可下载;


06.lncSEA_db.jpg


4)生成富集的柱状图,图片可下载;


07.lncSEA_db.jpg


5)其他上游因子,分子互作查看。如miRNA


08.lncSEA_db.jpg


二、实操演示2——IncRNA基因注释


1)输入lncRNA的基因名称,运行;


09.lncSEA_db.jpg


2)lncRNA预测结合的miRNA,来源数据库,Count为该miRNA同时影响的lncRNA种类总数量;


10.lncSEA_db.jpg


三、参考文献


Jiaxin Chen, Jian Zhang, LncSEA: a platform for long non-coding RNA related sets and enrichment analysis, Nucleic Acids Research, Volume 49, Issue D1, 8 January 2021, Pages D969–D980, https://doi.org/10.1093/nar/gkaa806


— 彩 蛋 —

下期,可能介绍全球最大的癌症突变数据库COSMIC(https://cancer.sanger.ac.uk/cosmic),如果通过癌症基因,找癌症突变,癌症药物,在 3D 蛋白质结构的背景下理解癌症突变。


11.cosmic.jpg


在线咨询
在线咨询
OA系统入口