本文介绍基因分析平台的版本变更信息,包括发布时间、版本变更内容、核心功能特性等信息。
问:是否有用户需要的分析应用能够直接使用?
答:基因分析平台通过应用仓库为用户提供开箱即用的公共应用,用户只需安装到工作空间即可使用。这部分内容由我们的合作伙伴以及开源社区提供,目标是覆盖行业内主流的分析应用场景。目前主要覆盖了全基因分析、全外显子分析、肿瘤分析等内容。如果不在用户的业务或者兴趣范围内,也可联系我们来评估建设。
问:除WDL外,是否支持其他流程语言标准?
答:基因数据的生信信息分析流程,目前还不存在一个唯一的流程语言标准,多数用户可能没有使用WDL或者是使用了其他流程语言标准,如Nextflow、CWL、Snakemake等。阿里云基因分析平台旨在遵循行业标准,以减少用户学习和应用迁移的成本,并且以统一的方式来围绕开源社区和生信开发者,来建立应用开放生态。WDL是国际基因组学联盟(GA4GH)支持的流程语言标准之一,能够同时提供完整的本地和云端执行解决方案,能够满足用户开发、测试和分析需求,是目前产品的首选项和长期支持计划。其他如CWL、Nextflow的支持在产品研发计划之中,欢迎联系反馈。
问:如何帮助平台用户进行基因数据的分析加速?
答:基因分析平台提供多种计算分析加速手段,包括:1)计算缓存加速,提供输入文件流式加载访问、公共参考文件计算侧缓存加速等节省大数据量文件访问I/O优化。2)大规模并行计算,不受限本地计算资源规模,支持Scatter-Gather的模式,对生信流程进行并行计算优化。3)加速硬件和算法,提供Sentieon软件、FPGA、GPU等多种加速手段,针对长耗时的计算步骤进行优化,并可以和用户脚本自由组合。
问:基因分析平台能否跨账号访问OSS资源?
答:可以。基因分析平台允许客户跨账号访问OSS资源,但需要资源拥有者授权资源访问者相应权限。具体授权步骤如下:
对其他账号的授权策略为:arn:sts::123456789:assumed-role/aliyuneasygenedefaultrole/*,其中,123456789为授予可访问该bucket资源的第三方账号。
问:基因分析平台任务出错常见原因排查方案?
答:基因分析平台任务出错原因建议按如下步骤排查:
查看任务页面报错提示,根据提示定位报错位置及原因
如果页面报错提示无法定位原因,则查看任务的stdout、stderr以及任务重定向的输出文件中是否包含错误提示
如果stdout及stderr中报错原因不明确,则查看性能监控页面的内存及磁盘使用率,如果任务结束前的内存或磁盘使用率接近100%或者快速攀升(由于性能监控存在时间间隔,因此即便任务因资源耗尽失败也可能在性能监控中无法达到100%),则建议增加计算资源重试任务
如果上述步骤依然未能定位原因,则可联系产品团队或提工单
建议在任务执行过程中适当添加日志信息,便于任务出错时定位原因
问:如何提高大量任务并发执行效率?
答:基因分析平台将为单个task准备机器资源、拉取docker镜像等,因此高并发时同步准备机器资源或拉取docker镜像可能会成为并发调度瓶颈,从而导致并发效率降低,增加任务分析成本,建议从以下方面优化任务并发性能:
适当合并运行时间短的task,保证单个task的执行时间在20分钟以上。由于资源准备以及拉取docker镜像等需要一定时间,因此大量提交短的task将导致平台反复准备及释放资源,从而导致调度性能显著降低,因此强烈建议合并运行时间低于10分钟的task,提高并发效率,降低分析成本。注意合并task时需同步重新构建相关任务的docker镜像。
间隔提交任务,避免同步提交大量任务。由于基因测序数据下机存在批次性,因此在投递分析时也存在明显的批次性,但同步提交大量任务时由于资源需求急速增加将导致任务并发调度性能降低,因此强烈建议客户在上传数据的同时分批提交分析任务,避免大量数据全部上传完成之后再统一提交分析,从而缩短结果交付周期。
数据边上传边提交分析建议采用如下方法:1)测序数据下机拆分完成后,本地使用OSS SDK按样本上传,上传完立即使用基因分析平台SDK提交分析任务,此种方式可自动化上传数据及分析,调度性能最高,可获得最短的结果交付周期;2)测序数据下机拆分完成后,分批次通过ossutil等方式上传,每批次上传完成后通过基因分析平台SDK或实体方式提交分析任务,每批次建议不超过100个样本。
如果通过上述方式优化后并发性能依然不够理想,或者存在短期大量分析任务需求时,建议提交任务前联系产品团队或提工单。