本文介绍基因分析平台相关的基本概念,以便您正确理解和使用产品功能。
基因分析平台基础概念
基因分析平台的相关基础概念如下表所示:
概念 | 说明 |
地域 / region | 基因分析平台中的数据文件、表格、应用以及运行等资源,都属于阿里云公共云上的某个地域,如华北2(北京)。在用户进行基因计算时,这些资源也必须处于同一个地域内。请查看平台的“使用限制”。 |
工作空间 / Workspace | 用户在特定地域创建的基因分析平台上的一个工作环境,用于管理基因数据,生信应用和运行任务等。通常会是一个项目,如“1000-genomes”。工作空间可以被用作资源管理,权限控制,费用拆分的一个基本单位。 |
文件 / File | 基因数据文件,存储在用户自己的对象存储OSS中。基因分析平台的工作空间可以关联一个用户已有的OSS Bucket,或者由平台代为创建一个全新的OSS Bucket。基因分析平台工作空间中的文件,即OSS对象存储中的文件,所有OSS操作和工具均可使用。 |
实体 / Entity | 基因数据表格,存储在用户的工作空间中,用于表示包含OSS文件信息和元数据信息组成的csv表格文件。如用户可以定义一个sample的实体表格,管理每个sample的名称、编号、文库类型,测序文件、分析结果等数据。平台支持用户浏览、搜索、批量分析这些生物实体数据。 |
应用 / App | 基因分析应用,使用流程描述语言(如Workflow Description Language,WDL)编写的标准的、参数化的生物信息分析流程,清晰定义了分析的输入输出、运行环境和软件依赖等,通常包含多个具有依赖关系的分析步骤。平台提供中心化的公共应用(Global App),是常见分析流程的最佳实践,用户可以安装到工作空间直接使用,或者自己创建/编辑应用(App) |
运行 / Run | 基因分析平台的运行,是指用户在工作空间中,选择基因分析应用,输入基因数据文件或表格后,提交到平台上的计算分析的操作记录。用户可以通过运行,来查询/停止或恢复已提交的分析请求,并获取分析进度、运行日志、输出结果等信息。 |
任务 / Task | 单个运行通常包含一到多个计算任务,对应分析应用中的不同步骤,由应用定义了计算过程中的环境依赖、资源消耗、运行命令、输入输出等关键运行时信息。 |
作业 / Job | 作业是基因分析平台中的最小计算单元,也是平台计费的基本单位。在用户的运行中,普通计算任务对应一个计算作业,而并行计算任务则会包含多个计算作业。同时计算作业在失败后,可由平台智能重启调度,从而生成新的计算作业。 |
模板 / Template | 用于批量创建运行任务的模板,包含使用的应用和实体表格信息,可以用于分析表格中的数据记录。 |
投递 / Submission | 批量运行任务的投递操作记录,用于查询、停止和恢复该记录下所有的运行任务。 |
其他相关云服务概念
概念 | 说明 | 相关文档 |
存储空间 / Bucket | 对象存储OSS的存储空间是用户用于存储对象(Object)的容器,所有的对象都必须隶属于某个存储空间。 | |
容器镜像地址 / ACR | 阿里云容器镜像服务中Docker的镜像地址 镜像地址示例(以容器服务的公共镜像为例):
|