近日,承启生物携手亚马逊云服务(AWS),在AWS上成功部署了基于FANSe算法的全自主基因测序分析云平台,并免费向全世界开放使用。承启生物将依托AWS构建的云计算加速系统,充分发挥FANSe算法精确高效、便捷快速、可扩展性强等性能优势,为全世界的基因测序企业和科研机构做好服务。FANSe算法在AWS平台的运行也标志着中国自主研发的精准组学技术解决方案走出国门走向世界,为精准医疗的发展贡献力量。
速度慢、算不准 传统算法短板不容忽视
随着数字化时代的全面到来,越来越多的企业开始将应用向云端迁移,而且从外围辅助型应用,逐步深入到生产和决策等核心业务系统,而AWS作为全球最大的云服务商,为全球数百万企业提供了安全性高、扩展性强、可靠性高的云基础设施,同时,还提供了来自全球数据中心的超200种功能服务,搭建了极具活力的生态系统,其较高的整体网络质量,低延迟、低数据包丢失,应用程序灵活度高等特点满足了公共事业政府部门、传统企业、老牌互联网企业、创业科技公司等不同机构企业的多元化需求。由于云计算弹性好、带宽大、算力高、按需付费的特点,似乎十分适合基因测序分析的场景,在AWS平台上,此前也确实有部分大规模测序分析算法运行,比如一些基于BWT的算法,然而却少有在精准医学和科研中的实际应用,因为应用体验其实算不得好,主要集中在速度慢、算不准两个问题上。
当前主流的二代基因测序是将DNA或RNA随机打断成无数个小片段进行并行测序,数据量极大,一个人全基因组测序数据集动辄高达300GB以上,采用通用压缩算法可将其压缩至1/4,上传仍然需要几个小时,传完还得解压。随后,需要进行序列过滤、序列比对、统计检验、数据库匹配等大量计算才能得出有意义的检测结果,传统算法运算效能不高,例如基因组突变搜寻常需要几十个小时才能跑完整个流程。为了提升算法的速度,国内有云计算服务商部署了FPGA硬件加速的基因测序分析系统,但此类分析系统成本高昂、应用单一,难以适应日新月异的应用需求。尽管如此,其单任务处理速度耗时依然较长,例如分析完成一个人全基因组测序数据集(不计网络传输)仍需接近2个小时,这种速度显然无法适应精准医学时代每天海量样品的分析需求。此外,传统测序分析算法参数复杂,如若没有相应的专业知识和经验试错,不易设置最优化的参数,从而直接影响检出率和准确率。因此,企业宁愿自行购买维护昂贵的服务器集群、花大价钱雇佣生信分析员在本地进行分析,也极少愿意在实际业务中使用云平台。
FANSe在AWS公有云平台上线 为基因测序行业降本增效
FANSe(黑色线)和两种国际常用算法(绿色和蓝色线)在体细胞突变标准测试数据集上的灵敏度对比
FANSe算法由承启生物全自主研发,历经多次更新迭代,如今已发展到第四代,在基因组突变搜寻、转录组定量等常见应用中,其准确度和稳健性显著超越传统算法,是迄今为止稳健性和准确性最高的比对算法。在运行速度上,其曾创下并至今保持了单机5分钟分析完一个30X人全基因组测序数据集的世界纪录。承启还自主开发了专用于FANSe的压缩算法,能将测序数据压缩至最高1/20进行传输,成倍降低了网络传输耗时,且无需解压即可被FANSe处理。承启生物自主搭建的基于FANSe算法的私有云平台表现出了优异的性能,用户不必购买服务器,也不必掌握艰深的生物信息学知识,点点鼠标即可完成测序分析,得到稳健而精准的结果。但在私有云上由于带宽的限制,随着使用承启云分析的客户增多,就会出现数据"扎堆"传不上,带宽被"挤爆"的现象,这时,即使是FANSe这类快速精准的算法也失去了用武之地。
承启生物开发人员正在一台高端家用电脑上调试Chi-Cloud
如今,基于FANSe算法的基因测序分析云平台"搬"到了AWS公有云平台上,首先解决的就是网络带宽问题。公有云分布式的网络总带宽极大,可以承载很多用户海量数据的同时上传,这对FANSe算法来说无疑是"如虎添翼",其极为高效的优势在公有云弹性大的特点下得以充分展现:单任务完成速度快,小规模的应用上传完毕稍等片刻即可得到结果,大型应用如全基因组测序分析也只是需要调用更多的计算核心而已。且FANSe完全不需要任何FPGA、GPU等硬件加速,仅靠CPU运算就可实现如此高的速度,通用性较好,云服务商也无需专门配置专用硬件,在现有硬件上就可以良好运行,易于不断升级来适应层出不穷的新应用。
其次,基于FANSe算法的基因测序分析云平台在AWS上的成功运行,可以让来自全球的基因测序企业和科研机构在满足各国敏感数据不出境的法律法规要求下享有精准高效的分析服务,此前,由于涉及人类遗传资源,许多国家和地区政府立法规定基因测序数据和样本不允许出境,这也就使得很多境外企业和科研机构不能应用FANSe云平台进行基因测序数据分析。而由于AWS平台在各国都设有数据中心,完美地符合法律法规要求,就可以让全世界都获得基于FANSe算法的基因测序分析服务,从而推动全球基因测序、精准医学行业的快速发展。
于企业而言,FANSe在AWS的成功运行可以为其实现降本增效,而对于承启生物而言,在如今的国际大背景下,纯国产自主研发的技术能获得全球最大云服务商的高度认可并全球部署,是中美基因测序行业逆向技术溢出效应的一个良好开端,未来,承启生物将继续深耕组学技术领域,以更多的国产创新技术助推行业发展,在世界舞台上发出更多的中国声音,赋能"精准医学更精准"。
深圳承启生物科技有限公司简介
承启生物是基于自主核心技术"多组学+信息学"提供医学服务、IVD及治疗方案的综合性精准医学平台,致力于用生物医学前沿科技为人们提供精准医疗及健康管理解决方案。旗下有四家国家高新技术企业以及一家持牌临检中心。
承启生物拥有完全自主研发并获得国际高度认可的超高精度基因测序数据分析FANSe算法。该FANSe算法于2020年创造了算法准确度和速度的世界纪录,被作为国际人类蛋白质组计划核心支柱的推荐算法。承启生物还建立了国内第一个全自主基因检测流程,在基因组、转录组、翻译组、蛋白质组、代谢组全组学层次均有精准的自主技术,该流程被作为国家医学生命组学质量控制标准的蓝本。