原标题:太卷?纯生信分析类文章不好发怎么破?
笔者最近听到很多小伙伴抱怨生信分析的小文章送审,反反复复被拒多次,很苦恼。也有小伙伴听说现在有些杂志明确拒绝接受或者送审之后秒拒纯生信类文章,想知道问题出在在哪里?
很多小伙伴又听说,随着组学和高通量方法的大量使用以及生物医学数据的大量积累,生信和数据分析技能变得越重要了。既然这样,为什么生信分析类文章越来越难越来发了呢?生信和数据分析技能变得越来越不值钱了吗?
今天我们就来聊聊这背后的原因,以及我们可以采取哪些方法来提高被录用的概率。
生信可以分为大概两类,
一类是以开发工具为目的,
需要较强的计算机、数学或者统计学的背景。因此进入的门槛比较高。另一类就是我们今天要聊的
以数据分析类为目的,使用各种工具(也叫包或算法)进行分析做出新的发现或者得出实用的结论
。都是为了科研,为嘛后者看起来很“卷”?在现在好像很多时候不受杂志待见呢?
不管是开发新工具还是发现新知识,最重要的是在“新”上面。这一点和商业很像,那就是业务。在科研上的业务就是“解决问题”。把重要的问题解决了,不管是开发工具还是发现新知识,不愁文章发不到好的杂志。因此说到底,我们要阐述的就是为什么很多杂志认为现在的很多生信分析文章不值得发表。
笔者审过很多生信分析类的文章,作为TopEdit的编辑,也编辑过很多生信分析类的文章。总结下来有以下几点原因导致生信分析类文章被拒:
第一,近几年有非常多的生信分析类文章,导致“通货”膨胀了。
生信分析,相较于耗时耗力的传统实验,对很多人来说是发文章和毕业的一条捷径。生信分析类门槛可以很低,会跑跑现成的package就能得到看起来不错的数据。甚至完全不会编程,现在各种生信工具的普及,使得很多小伙伴不用学习编程就可以利用现成的数据库进行一些分析。这个相对的“低门槛”,让生信数据分析类文章大量涌现,随之而来的较多的低质量的分析类文章也因此导致很多杂志对这类文章的“一刀砍”。
第二,做数据分析,需要明白相关性和因果性的区别。
科学研究中非常重要的一方面是找到机制(mechanism), 但是在绝大多数情况下,生物信息分析或者机器学习给我们提供了两种现象之间的相关性,但是并不能提供两者的因果性。因此对这类文章,比如鉴定出来的基因或者基因簇,我们只能称之为标志物(marker),但是在审稿和编辑的过程中,发现很多作者分不清两者。经常有作者过度夸大结论(overstate),号称其发现的基因可以作为药物治疗的靶点(实际上只有相关性,可以作为标志物,但是作为靶点,需要阐明因果性才可以)。
第三,大量生信分析类文章结论简单,可靠性很低。
有些作者号称自己从多个角度证明了自己的结论,但是需要分析方法之间本身的相关性。用没有内在联系的方法得出的结论才会更具有说服力。在审稿和编辑的过程中,有好几次发现作者号称AUC大于0.5,得出结论他们的预后模型(signature model)不错,或者说R大于0同时P<0.05,说明他们的signature显著正相关(实际上我们不仅要考虑P之显著,也要考虑实际的R值的范围)。还有的作者刚用临床预后找到相关基因,回头用这些基因分组之后又去分析不同组和预后的关系。还有研究探究TCGA中的肿瘤纯度(tumor purify)和基因表达的关系,说找到了某某signature和tumor purity相关(实际tumor purify是由取样时决定的,和基因表达完全是随机关系)。相对低的门槛,导致很多不具备专业背景的“跨行”做数据分析,导致结论大多不可靠,也导致有些杂志和审稿人的反感。
第四,很多作者不愿意或者没有条件对生信分析结论进行验证。
强的相关性提供了重要的研究方向,发表的可能性相对较大。现实是很多作者的相关性没有那么强。在这种情况下,如果不通过湿实验验证,很难说服审稿人。
发现了这些问题,那么应该怎样有针对性地提高生信分析类文章发表的概率呢?
✅首先,对于生信的分析不要流于表面,要找到重要的问题
。如果是要寻找marker或predictor,让AUC和准确性(accuracy)尽可能的高。如果是要寻找target,需要通过多种方法论证其因果性(比如CNV和mutation)。一般来说,同一篇文章里不要试图同时做这两件事(只做了相关性分析,并没有揭示内在的机制,号称自己的可以作为靶点,只会适得其反)。
✅其次,提高编程和生信分析的技能,
从多角度多数据作出更全面的分析。深入和彻底地理解方法和算法背后的原理,这样才能更好地解释看到的现象。比如很多作者建立预测模型的时候并没有设置独立的验证数据集。实际上,为了增强结论的可靠性和普适性,作者通常需要找到独立的(或者至少预留一部分数据(validation dataset)数据来验证自己的结论。
✅第三,尽可能地对结果或者预测进行实验验证,或者与有条件的实验室进行合作
。湿实验因为可以严格地控制变量,因此可以研究具体的因果关系。而且机制研究能够为文章大大加分,增加发表高水平杂志的可能性。
✅第四,除了采用公共数据集,对于在医院的小伙伴,可以产生自己的一些数据
。虽然很多时候看起来同种疾病(比如某种癌症)已经有很多数据了,但是临床数据很珍贵与难得。如果有条件,得到自己的数据集,这个本身就是一种资源和贡献,也有助于文章的发表。
返回搜狐,查看更多
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
发布于:
黑龙江省