数据开发为用户提供一站式计算节点开发能力,通过对数据加工流程的开发、部署、调试等环节的一体化管理,数据开发实现数据加工工作流编排、加工逻辑的复用,大幅提高数据开发效率。
数据开发帮助用户优化智能系统的架构,提高系统的工程化水平,让用户能够集中精力处理计算逻辑问题,提高开发效率。数据开发除了在系统层面上集中管理计算节点,降低计算节点和系统其他组件的耦合之外,也对计算节点内部的实现提供了一组规范。在实际的业务系统中,数据来源多种多样,不同数据对数据处理的时延和数据量的要求不同,这就需要综合多种不同的平台,包括批量、流式环境等。进行数据处理时,上一个平台计算完毕后把数据传递给下一个平台进行计算,多个平台互相配合来完成任务。数据开发定义了各平台间的数据流转规范,以及各平台计算节点执行顺序的方法,从而让用户能够更加专注于计算逻辑的开发,不必关注底层的技术细节。
数据开发规范了各个计算节点的接口,在一定程度上提高了计算节点复用的能力,降低了多人协作开发的难度。提供了跨多种存储/计算平台的计算节点工作流程配置和快速部署上线的能力。因此,用户在构建数据应用时,只需从解决实际某一业务场景出发,组合多种类型的计算节点来配置计算节点工作流程,从而快速解决业务工作流并依托数据开发的跨平台多异构任务的一键部署和上线能力,极大的提高了工程效率。
节点模式
节点模式任务主要适用于计算节点相对独立,整个流程由单个节点组成的这类简单数据处理场景,支持灵活的节点开发模式,支持对计算节点中的脚本、自定义函数、节点输入、节点输出、参数等进行配置和管理。支持批量离线、在线和流式计算等多种类型的计算节点。支持同一租户内,不同工作组中的任务依赖和统一调度。
开发环境节点
支持节点任务类目的新建、编辑和删除以及支持离线、在线和流式节点注册,对节点脚本、自定义函数、节点输入、节点输出、节点变量进行配置和管理以及支持配置节点的依赖关系以及支持节点任务的部署、运行和上线。
支持节点任务类目的新建、编辑和删除。
支持节点任务的新建、编辑、删除。
支持离线节点、在线节点和流式节点的注册,对节点脚本、自定义函数、节点输入、节点输出、节点变量进行配置和管理。
支持根据SQL语言,自动解析离线节点的输入输出。
支持输入输出选择任意结构,方便操作。
支持配置节点的依赖关系。
支持节点任务的部署、运行和上线。
生产环境节点
支持生产环境中节点任务的查看和下线,对节点的算法信息、计算资源、存储资源、调度周期入、输出等详细信息以及部署信息的查看。
场景模式
场景模式适用于算法相对比较复杂,算法流程由多个节点,在一个场景内的混合编排组成的节点工作流场景,支持可视化的自定义任务流的场景开发模式,支持对计算节点中的脚本、自定义函数、节点输入、节点输出、参数等进行配置和管理。提供数据加工、算法服务任务流程开发、编排与调试、上线、部署、维护等功能。支持流式计算、批量离线计算等多种类型的计算节点在一个工作流中统一编排。支持同一租户内,不同工作组、不同场景间的全局任务依赖和统一调度。提供可视化操作界面,通过托拉拽的方式连接计算节点迅速实现数据加工流程编辑,大幅提升数据开发工作效率。
开发环境场景
支持开发环境场景类目管理。支持开发环境场景引用公共节点。支持数据处理流程编排(多个计算节点组合成一个任务流),用户可灵活的通过可视化方式自定义任务流。支持批量、流式等多种类型的节点在一个场景内的混合编排。支持开发环境中场景的部署、运行和上线,并将开发环境中调试通过的场景发布到生产环境。
支持新建、编辑和删除开发环境场景目录。
支持新建、编辑、删除开发环境场景。
支持在开发环境场景中引用公共节点,并配置离线计算节点的调度信息。
支持在开发环境场景中新建计算节点,配置计算节点的各类参数及离线计算节点的调度信息。
支持在开发环境场景中新建系统节点,并配置系统节点的配置信息。
支持通过可视化方式配置上下游计算节点的依赖关系,并配置输入、输出参数的对应关系。
支持根据配置的输入信息,自动解析外部依赖节点信息。
支持输入和输出参数选择任意结构。
支持开发环境场景的部署、运行和上线。
支持自动生成数据质量检查节点(当计算节点的输出参数引用的逻辑表配置了质量规则时)。
生产环境场景
支持生产环境中场景的运行和下线,对各节点的算法信息、计算资源、存储资源、调度周期入、输出等详细信息的查看。
公共节点
支持公共节点类目管理。支持批量、流式等多种类型的公共节点,对公共计算节点脚本、公共计算节点输入、公共计算节点输出、公共计算节点变量等进行配置和管理。支持公共节点的版本管理。
支持公共节点注册,对公共节点脚本、自定义函数、公共节点输入、公共节点输出、公共节点变量进行配置和管理。
支持根据SQL语言,自动解析离线节点的输入输出。
支持输入输出选择任意结构,方便操作。
支持公共节点版本管理,用户在开发环境对公共节点进行修改和调优,调优完成后,发布公共节点并指定版本号,将算法发布到生产环境。
支持公共节点的废弃,避免旧版本公共节点被其他使用者重新使用。
支持查看公共/计算节点关联的场景,帮助用户清晰的了解公共节点的使用情况。
支持批量、流式等多种类型的公共节点。