本文介绍基因分析平台中的实体概念,以及如何通过表格管理基因数据文件和元数据信息。
基因实体表格介绍
基因数据除测序文件(如FASTQ,BAM等)外,还需要包括临床、样本、实验等相关元数据信息,这些组合在一起,才能形成生物医学多组学的大数据。
除使用阿里云对象存储OSS为基因数据文件提供安全、可靠、无限的存储空间外,基因分析平台设计了符合生物样本数据(如患者、样本、组织等)管理需要的实体概念。实体(Entity)通过csv表格的形式,来定义包含的数据属性,并支持不同实体之间相互引用,以组织复杂的多组学数据。
平台中的实体表格完全由用户自定义,支持添加、编辑以及下载实体表格,并且可以选择实体表格数据启动批量分析任务。
添加实体表格
步骤一:用户可以通过上传csv文件,在工作空间中添加新的实体表格。平台提供“新建空白模板”功能,编辑名称和属性列后,可以下载csv模板。
实体名称:工作空间下唯一,由数字、字母、下划线、连接符组成,长度不超过64个字符,且不能以数字或者连接符开头。
首列名:ID列,无需输入,必须符合“<实体名称>_id”规则。
新增列:支持新增任意多列来描述实体属性。
列名称:合法变量名称,实体内列名称不能重复。
列类型:默认为字符值,即单元格内容为文本。同时支持下拉选择其他“实体引用”,即单元格内容为引用实体的首列ID
步骤二:点击确定后,浏览器会自动下载该实体的csv模板到本地,用户可以通过Excel软件或者其他文本编辑器,批量编辑内容后保存。
用户也可以按照规则,直接在本地准备实体表格的csv文件,编辑保存数据后上传。csv文件首行为表格的定义,其中首列必须为<entity>_id。如上图中的sample_id, sample为待添加的实体名称。
步骤三:然后通过“上传表格文件”, 将包含数据的csv文件上传平台。
点击确定,上传成功后,即可在工作空间内查看实体数据表格。
默认情况下,单次上传的实体文件大小不能超过2Mb,如需上传更大实体文件,请拆分成多个文件上传或联系产品团队或提工单申请。
更新实体表格
对基因分析平台中已经添加成功的实体,用户有两种方式可以进行数据的更新。
编辑实体表格对应的csv文件,保存后再次上传,即可更新数据。
可新增任意列和任意行数据,上传成功后,将增量更新表格内容。
如果列名和首列ID一致,则csv中的内容,将会覆盖更新表格内容。
用户可以在基因分析平台中,按行选中需要编辑的表格内容,下载csv文件到本地后进行编辑。
直接在网页中进行编辑
鼠标移动到单元格的内容上,会出现编辑图标,点击后即可编辑表格内容。
删除实体表格
用户可以按行选中实体表格内容,对“已选中的数据”进行删除操作。实体表格中所有行被删除后,实体表格自动被删除。
启动批量分析
如用户已使用该实体创建应用模板,则可以按行选中实体表格内容,对“已选中的数据”进行“启动分析”。平台展示与当前实体类型相匹配的分析模板,帮助用户快速批量提交运行任务。详细说明请参考最佳实践。