阿里云首页 基因分析平台

基因实体表格

本文介绍基因分析平台中的实体概念,以及如何通过表格管理基因数据文件和元数据信息。

基因数据除测序文件(如FASTQ,BAM等)外,还需要包括临床、样本、实验等相关元数据信息,这些组合在一起,才能形成生物医学多组学的大数据。

除使用阿里云对象存储OSS为基因数据文件,提供安全、可靠、无限的存储空间外,基因分析平台设计了符合生物样本数据(如患者、样本、组织等)管理需要的实体概念。实体(Entity)通过csv表格的形式,来定义包含的数据属性,并支持不同实体之间相互引用,以组织复杂的多组学数据。

实体表格

平台中的实体表格完全由用户自定义,支持添加、编辑以及下载实体表格,并且可以选择实体表格数据启动批量分析任务。

添加实体表格

步骤一:用户可以通过上传csv文件,在工作空间中添加新的实体表格。平台提供“新建空白模板”功能,编辑名称和属性列后,可以下载csv模板。

上传表格
  • 实体名称:工作空间下唯一,由数字、字母、下划线、连接符组成,且不能以数字或者连接符开头。

  • 首列名:ID列,无需输入,必须符合“<实体名称>_id”规则。

  • 新增列:支持新增任意多列来描述实体属性。

    • 列名称:合法变量名称,实体内列名称不能重复。

    • 列类型:默认为字符值,即单元格内容为文本。同时支持下拉选择其他“实体引用”,即单元格内容为引用实体的首列ID

步骤二:点击确定后,浏览器会自动下载该实体的csv模板到本地,用户可以通过excel软件或者其他文本编辑器,批量编辑内容后保存。

csv
说明

用户也可以按照规则,直接在本地准备实体表格的csv文件,编辑保存数据后上传。csv文件首行为表格的定义,其中首列必须为<entity>_id。如上图中的sample_id, sample为待添加的实体名称。

步骤三:然后通过“上传表格文件”, 将包含数据的csv文件上传平台。

上传

点击确定,上传成功后,即可在工作空间内查看实体数据表格。

实体表格

更新实体表格

对基因分析平台中已经添加成功的实体,用户有两种方式可以进行数据的更新。

  • 编辑实体表格对应的csv文件,保存后再次上传,即可更新数据。

    • 可新增任意列和任意行数据,上传成功后,将增量更新表格内容。

    • 如果列名和首列ID一致,则csv中的内容,将会覆盖更新表格内容。

说明

用户可以在基因分析平台中,按行选中需要编辑的表格内容,下载csv文件到本地后进行编辑。

  • 直接在网页中进行编辑

    • 鼠标移动到单元格的内容上,会出现编辑图标,点击后即可编辑表格内容。

编辑下

删除实体表格

用户可以按行选中实体表格内容,对“已选中的数据”进行删除操作。实体表格中所有行被删除后,实体表格自动被删除。

删除

启动批量分析

用户可以按行选中实体表格内容,对“已选中的数据”进行“启动分析”。平台展示与当前实体类型相匹配的分析模板,帮助用户快速批量提交运行任务。详细说明请参考最佳实践。

启动批量分析