如今,基因测序已经不再是“深不可测”的词汇,甚至基因测序技术在基础研究和临床应用等领域都得到了广泛的应用。随着技术的不断发展和测序市场的不断规范化,中国基因测序市场增速明显并进入快速发展期。正是由于技术的快速进步,让检测成本持续下降,也让基因测序在更多场景上实现了应用的可能。2020年,华为云推出极致基因分析平台计划,据悉,此平台计划将助力基因测序行业进一步发展,实现同流程节省资源30%。
尽管发展迅速,但基因行业也有“痛点”
在2016年3月公布的“十三五”规划中,精准医疗被政府列为最重要的科技项目之一。政府计划投入200亿人民币用于精准医疗相关研究,并号召社会资本投入400亿人民币共同推进精准医疗发展。如今,精准医疗已经上升成为国家层面推动与市场力量共同驱动的一个新兴行业。政府的鼓励和支持让以基因测序为基础的精准医疗迎来快速发展。
事实上,传统的自购设备、自建计算存储集群会耗费生物信息领域研发人员大量精力,集群的建设、维护、折旧也将消耗巨大成本。与此同时,面对业务高峰时依然会出现算力不足的情况,对业务进度有着比较大的影响。
虽然三代基因测序的读长更长,可以完美填补二代测序的众多不足,在计算量方面,也比二代基因测序同一流程计算量扩大了近100倍,但这也对基础设施的需求进一步增大。
打造计算环境标准化
面对上述痛点,传统基因公司自建机房的方式将难以继续。以服务器维护为例,让IT人员管理50台服务器没问题,扩大100倍,到5000台服务器的时候,就不是一个IT人员可以维护的。这只是最直接的原因,更深层次的问题是这么大的重资产投入,并不符合基因厂商的商业逻辑。基因厂商应该更加地专注于业务开发。那么云计算就是一个不错的选择,新的问题是什么样的技术能够保持云上云下流程的一致性呢?答案就是Docker容器技术。
毫无疑问,生物信息领域的基础IT技术正在向Docker容器靠拢,目前由GA4GH制定的工具标准也都是使用Docker镜像的。不仅如此,容器技术在整个IT领域发展迅猛。据IDC最新云服务市场报告(2019年第一季度)显示,IaaS市场增速有所减缓,PaaS(容器)市场依然保持高增长,增速为101.9%。同时CNCF云原生基金会也正是迅速的壮大,围绕容器的生态圈也逐步完善。
当前,Docker已然是计算机科学家和开发人员领域的热门话题之一。它现在已经被广泛地被生物学领域使用,具有巨大的潜力。国际Top生信机构纷纷采纳Docker作为基础运行环境,并且成为每一个生物信息分析领域的人知晓的Docker技术。
作为一个开源引擎,Docker可以自动将应用程序部署到容器中,同时又是独立于Host系统的。这样不仅可以随时改变容器中的软件和执行的命令,而且不用担心破坏主机系统。这是一个令人难以置信的轻量、快速和高效的环境,它可以方便的运行代码,而这也是Docker技术迅速火遍全球的原因之一。
加速生物信息变革的华为云基因容器
在中国,华为云基因容器服务(GCS)将基因测序和容器技术完美地结合在了一起,为广大基因测序厂商提供了“更省、更快、更轻松”的云计算平台。从GCS的产品特点来看,它由三层架构组成。最底层Docker层,主要解决基因测序相关软件的安装升级问题;中间层Kubernetes层,则主要解决在大规模集群中部署&运行Docker的问题;最上层流程管理层,主要负责基因测序的流程控制,同时提供精细粒度的监控运维管理能力。
事实上,基因容器(GCS)在提供全容器化能力的同时,还支持一键创建SGE集群,并根据投递任务控制sge队列的自动扩缩容,做到真正的Serverless+按需使用。此外,基因容器(GCS)还支持Cromwell引擎,提供运行WDL流程的能力。基因容器服务(GCS)做到基因业务上云使用更灵活,性价比更高,运维更简单。
实现同流程节省资源30%
以业界标准的GATK4跑WGS(全基因组)流程为例,利用容器的灵活规格,我们可以做到以单个步骤(软件)为粒度来调整所需要给予的资源大小。例如,BaseRecalibrator步骤,传统虚机跑的话,一般选择4C8G的规格,同时并发跑18个虚机一起跑。而利用容器跑,可以根据样本情况,精确控制容器规格到3C6G即可满足要求。这种异形的CPU:Mem的比例,就是容器所独有的巨大优势。在面对大规模并发生信流程时,每个步骤节约的资源,汇总后有客观的效果。
由于每个步骤运行时长不一,累积后结果就是整个WGS使用全容器化执行,全流程可以节约资源30%~40%,效果显著。而这一特点得到了多家基因测序厂商的广泛认可。
与此同时,由于细粒度容器的装箱优势。全容器化的大量生信流程并发执行,可以使得节点资源利用率更高,即沙子(任务负载)可以把箱子(计算节点)填的更满。所以从整体集群资源利用率上,也可以较传统集群获得更大的成本优势。
华为云助力基因测序行业定制专业云平台
目前,大部分通用的公有云厂商,提供的大多是基础设施能力。而专业的领域云平台,仍然需要领域化功能,甚至包含大量的专业化定制。典型如:FireCloud博德云(麻省理工+哈佛大学),ISB-CGC(美国国家肿瘤基因云)都是基于谷歌云打造。
作为业界首个基于Kubernetes加Docker容器技术打造的基因测序云服务,华为云基因容器服务(GCS)提供了完整的基因计算解决方案。同时具备完整的云上云能力,是允许用户深度定制领域云平台。依托于华为云强大的技术支撑团队,华为云基因容器服务(GCS)为客户基础设施环境提供了7X24小时的运维,做到客户真正的“聚焦业务”。
同时,在云上云模式下,由于基因容器服务(GCS)支持细粒度话单功能,使得客户可以精确获得单个样本单流程的实际计算成本。厂商可以聚焦SaaS服务,并将成本细节向最终用户屏蔽,能够获得更好的业务主动权。
基因容器服务提供全栈型的解决方案,其强大的研发团队加技术支撑能力,让企业可以更加专注行业内技术的创新发展,加大仪器优化、技术更新、产品迭代方向投入的同时,将有限的资金实现最大化利用,从而实现在市场上领先对手,占得先机。
基因容器首席架构师唐盛军表示,华为云作为有技术、有未来,值得信赖的云服务平台,希望通过极致基因分析平台计划,助力基因测序企业云化发展。