我司计划推出【医学数据库专辑】栏目,计划专辑每一期,通过临床基因检测报告、生信组学结题报告、行业前沿热点为抛砖,推出一个与人类医学疾病、生信分析相关的重磅级别的数据库。每期介绍的数据库,经过我们的技术团队的多层筛选、评价,优选出来的数据库。一是方便医学研究者了解优秀的公共数据库资源;二是,我们计划筹备,将部分优秀的公共数据库资源,通过大数据文本挖掘,模型预测,整合到高通量测序的生信分析服务中,形成具有行业特色的医学型+组学的生信分析服务,这对助推生物医学领域产学研一体化的发展有着积极的作用。
“大数据”时代已经到来,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。在生活中,小到如今日头条、抖音、京东淘宝对每个人手机滑动动作产生的智能推荐。大到,整个城市交通轨迹、自动化物流、瞬时天气预测。
在医院,不断加强对精准医学的建设,很多大型医院,开始建设有医学样本库、医学数据库。样本类型包括组织切片、血液、尿液、细胞、多肽、核酸提取物等,数量已达数万例;数据类型包括医疗机构的管理数据、健康管理数据、临床数据、AI 影像数据等大数据。
在生物学领域,大数据的整合分析更是亟不可待。临床基因检测报告,每个检出变异位点,有上千条文献、实验验证的证据链的支持;每次NCBI 核酸序列blast比对的点击,检索世界上万个物种时,弱弱感觉到数据检索的力量。在大数据时代,如何充分利用数据,让数据不再沉睡?如何将自己的数据和已有的数据联合分析、充分挖掘数据的意义?如何基于临床研究设计科研课题,整合多组学数据,形成科研论文?
文章内容较长,坚持看到底,
文末有彩蛋!!!
正文
下面,将举例介绍,如何通过全球范围的数据库导航门户,找到想要的重磅级数据库~
◆ 麦吉尔图书馆:生信数据库导航入口网站
https://libraryguides.mcgill.ca/bioinformatics/databases
看到四个数据库搜索工具,下面将逐一介绍,这4个数据库搜索入口~
01 Nucleic Acids Research 2020 Database Issue
2020年数据库主题收集网址:
https://academic.oup.com/nar/issue/48/D1
核酸研究(Nucleic Acids Research)的年度数据库期刊对与分子生物学和生物信息学有关的许多可公开获得的在线数据库进行了分类,并对数据库进行了最新更新。
1.1 第27期年度数据库主题期刊和分子生物数据库收集
介绍页网址:
https://academic.oup.com/nar/article/48/D1/D1/5695332
该栏目介绍了2020年数据库文章发表的动态。NAR在线分子生物学数据库集合已经过修订,更新了305个条目,增加了65个新资源,并消除了125个不连续的URL;因此将目前的总数增加到1637个数据库。
NR期刊提出了建议,未来数据库类的论文将按以下方式进行论文归类:
(i)核酸序列和结构,转录调控;
(ii)蛋白质序列和结构;
(iii)代谢和信号传导途径,酶和网络;
(iv)病毒,细菌,原生动物和真菌的基因组学;
(v)人类和模型生物的基因组学以及比较基因组学;
(vi)人类基因组变异,疾病和药物;
(vii)植物和(viii)其他主题,例如蛋白质组学数据库。
▵ 1637个在线数据库,收录在牛津大学期刊官网:
http://www.oxfordjournals.org/nar/database/c/
1.2 NCBI中心数据库资源盘点
介绍页网址:
https://academic.oup.com/nar/article/48/D1/D9/5585551
美国国家生物技术信息中心(NCBI)提供了大量的在线生物信息和数据资源,包括GenBank 核酸序列数据库,以及在生命科学期刊上发表的引用和摘要的PubMed数据库。Entrez系统为来自35个不同数据库的大多数这些数据提供搜索和检索操作。E-utilities serve实用程序充当Entrez系统的编程接口。
NCBI旗下,所有数据库收录在,NCBI官网:
www.ncbi.nlm.nih.gov
下图为2019年NCBI数据库的年度增长率,从前五可以看出,近年来,二代测序、蛋白组数据、临床疾病的变异信息的上传,有着爆炸式的增长。
下表为2019年NCBI数据库的列表,当然包含生信分析中常用的芯片数据、高通量测序数据、参考基因组信息、临床突变信息等。
表格网址:
https://academic.oup.com/view-large/191000235
1.3 EBI数据库资源大盘点
欧洲生信信息中心the European Bioinformatics Institute (EMBL-EBI),与美国NCBI类似。
数据库收录在EBI官网:
https://www.ebi.ac.uk/
在EMBL-EBI资源中,数据交换可确保在所有资源之间共享和搜索新信息,无论是有关基因,蛋白质,结构还是其他实体的信息。资源之间的数据交换由应用程序编程接口(API)进行调解,以确保我们的数据资源可以响应任何查询为用户提供尽可能多的信息。这些数据交换可增强用户访问数据的体验,并避免重复劳动。
下图示例,如何通过EMBL-EBI基础结构传播新的开放数据。
EMBL-EBI上的数据资源之间的数据交换。该数据集包含EMBL-EBI 41种资源之间的911个单独数据连接。圆形圆周上的资源通过内部弧相互连接,内部弧的宽度表示资源之间不同交互的总数。
圆弧宽度与数据连接的数量成正比,并不代表交换的数据量。资源按功能簇在圆周围分组,并按颜色区分。内部弧线颜色标识每个群集,并且不反映数据交换的方向。
1.4 国家基因组中心
国家基因组数据中心(NGDC)提供了一套数据库资源,以支持学术界和工业界的全球研究活动。随着高通量和低成本测序技术的飞速发展,以及由此产生的以指数级和速率成倍增长的大量多组学数据,NGDC正在通过大数据集成和价值不断扩展,更新和丰富其核心数据库资源。
国家基因组数据中心(NGDC)是中国科学技术部和财政部于2019年6月正式批准的国家级中心,致力于通过存档,管理和管理生命科学和健康科学的工作并处理各种与基因组学相关的数据。
NGDC是在中国科学院北京基因组研究所(BIG)的BIG数据中心的基础上,与两个CAS机构,即生物物理研究所(IBP)和上海密切合作建立的营养与健康研究所(SINH)。
数据库收录在,国家生信信息中心官网:https://bigd.big.ac.cn/
国家基因组数据中心的核心数据资源。分别采用数据,信息和知识这三类来表示资源,这些资源通常分别用于存放原始数据/元数据(档案),房屋增值信息(数据库)和通过文献管理(知识库)整合经过验证的知识。
数据库收录在:https://bigd.big.ac.cn/databases
进入数据库栏目后,首先看到的是2019新冠病毒资源数据库,该数据库且不断在更新。
从数据库信息,可以看出美国仍位居新冠人口大国榜首。从2020年12月病毒变异率在加速上升。卫生机构,每检测到新的SNV变异,都会在网站上进行记录,累计1.5万次新增变异的序列信息记录,序列文件也可以通过本网站下载。
02 2019年年度数据库资源主题
资源列表网站:
https://academic.oup.com/nar/issue/47/W1
在线网站的分析工具,可视化效果非常好。以下列举前几个:
1)MAFFT-DASH:整合的蛋白质序列和结构比对
MAFFT-DASH: integrated protein sequence and structural alignment
2)Web 3DNA 2.0用于3D核酸结构的分析,可视化和建模
Web 3DNA 2.0 for the analysis, visualization, and modeling of 3D nucleic acid structures
3)HNADOCK:用于对RNA / DNA–RNA / DNA 3D复杂结构建模的核酸对接
HNADOCK: a nucleic acid docking server for modeling RNA/DNA–RNA/DNA 3D complex structures
4)RegulationSpotter:转录外DNA变体的注释和解释
RegulationSpotter: annotation and interpretation of extratranscriptic DNA variants
— 彩蛋 —
如果文章点赞人数较多,后续每期会在文末添加一个彩蛋,与生物行业有关或无关的高效办公工具。如科研矢量图素材库、稳定科研上网VPN、可视化网页交互工具等~
➤ 本期推荐
cell signaling:
https://www.cellsignal.cn/pathways
Cell Signaling Technology (CST) 致力于提供全球最高品质的创新研究产品,以加速生物学认知。一家总部位于美国马萨诸塞州丹弗斯的私营公司。在CST公司官网有着大量的细胞通路图,还提供免费的通路海报,和中文图示信息,非常好的通路学习资源。