ADP底座/本地运维控制台

更新时间: 2023-02-09 11:39:34

ADP底座/本地运维控制台发布记录。

V1.4.6

Bug Fix

  • 修复某些场景下垂直扩缩容运维操作报错的问题

  • 修复Redis水平扩容运维操作无效的问题

  • 修复Redis sentinel模式下不支持垂直扩容的问题

  • 修复运维操作执行结果被后续运维操作回滚的问题

  • 修复Grafana循环登录需要清理浏览器缓存的问题

V1.4.5

Bug Fix

  • 修复组件列表排序混乱的问题

  • 修复组件容器组列表偶现不展示的问题

  • 修复集群管理中节点列表无法翻页的问题

  • 修复adp-local-0 Pod经常OOM的问题

  • 修复非登录状态下可查看审计日志的问题

V1.4.4

新特性

  • 本地运维控制台新增集群体检功能

    • 能够展示集群整体健康分和健康等级,并展示集群体检检测项及异常情况

    • 多维度展示CPU、内存、存储的资源分布

  • 本地运维控制台更新监控告警功能

    • 消息通道新增钉钉工作消息、阿里云SMS、企业微信、Webhook类型

    • 告警消息新增在线诊断能力

    • 监控指标支持查看exporter采集的基础指标,并可以展示指标趋势图

    • 监控指标、告警策略新增配置方式

  • 本地运维控制台更新日志采集功能

    • 标准输出支持字段提取

    • 支持按JSON模式进行日志提取

    • 文件采集路径支持加载卷名称

  • 本地运维控制台更新节点管理功能

    • 节点扩容支持指定kubelet/docker分区大小

    • 新增节点下线功能

  • 首页支持kubectl工具箱,可以进行黑屏诊断

  • 中间件默认支持PVC存储扩容、垂直扩容运维操作

  • 支持1.2.x、1.3.x、1.4.x离线升级到1.4.4版本

Bug Fix

  • 修复告警通知事件偶尔丢失的问题

  • 修复订阅组没有配置消息通道仍然接收到告警的问题

  • 修复部分中间件监控大盘展示不全的问题

  • 修复Pod Crash后无法进行Pod Debug的问题

  • 修复底座自带PrometheusRule监控告警规则报error和warn问题

V1.4.3

新特性

  • 本地运维控制台告警功能更新

    • 新增告警订阅组配置功能,支持按不同通道及不同告警等级分发告警消息

    • 告警消息支持自定义模板

    • 支持同一告警策略多订阅组共同分发

    • 支持表达式自定义告警规则

  • 本地运维控制台日志功能更新

    • 支持自定义日志采集对象、自定义表达式设置日志标签

    • 日志可视化查询及过滤、按标签查询

    • 支持通过日志标签转化为监控指标

  • 本地运维控制台新增PodDebug、NodeDebug终端工具

  • 本地运维控制台节点管理功能新增节点维护功能,支持以命令行模式扩容节点,并且增强了扩容的可重入能力

  • 本地运维控制台集群监控大盘更新展示形式

  • 底座新增Anolis、Kylin等OS的适配

Bug Fix

  • 修复部分数据指标不准确的问题

v1.4.3-ack-beta

Bug Fix

  • 优化产品及组件部署状态信息

  • 修复某些场景下访问ACR镜像仓库失败的问题

v1.4.2

新特性

Bug Fix

  • 本地运维控制台新版首页大盘,完善统计信息,便于更及时发现异常

  • 故障诊断,支持导出离线诊断数据,便于远程运维分析

  • Harbor组件增加垂直扩缩容、水平扩缩容能力

  • 节点白屏扩容,在节点管理界面可进行添加节点的操作

  • 提供基于备份的还原操作,在完成了备份后,可基于备份对实例进行还原

  • 提供了全新的License注册及查询能力

  • 提供GPU Share调度能力的alpha功能,默认关闭,只供测试;

  • Registry将默认开启认证机制,集群内docker天然可访问

  1. 修复了Grafana使用匿名模式免登录的安全问题,修改为了自动登录

v1.4.1-beta

Bug Fix

  • 修复在local初始化过程中,可能因annotation.namespace为空导致组件关联资源查询和部分组件的运维操作功能异常

  • 修复trident从v1.1.9升级至1.11时PV创建Pending的问题

v1.4.0

新特性

  • 线下故障诊断:本地运维控制台提供故障诊断大盘

    • 可视化资源状态展示,辅助进行问题定位和根因分析。

    • 针对常见故障场景,提供修复方案和处理建议。

  • 组件运维操作可视化:本地运维控制台新增以下几项白屏化运维操作

    • prometheus、loki、local:新增水平扩容、垂直扩容、PVC存储扩缩容

    • 所有谐云中间件:新增水平扩容、垂直扩容、PVC存储扩缩容、主备切换

  • 本地运维控制台的日志查询,支持按本地文件筛选查看

  • 当节点只具备一块系统盘,不具备单独的数据盘时也能完成底座部署(无法进行容量隔离,不推荐生产环境使用)

  • 增强环境预检能力,扩展预检范围:NTP预检、ipip协议预检、linux内核安全性的预检、集群内防火墙的预检、CIDR校验

  • Trident版本升级支持:

    • v1.1.9->v1.11.0(该升级中涉及K8s版本变更,将从v1.16升级到v1.20,过程大概1小时内完成,其中有20分钟内,集群内DNS解析可能不稳定,且无法新创建工作负载)

    • v1.10.0-v1.11.0

  • 通过ParaLB提供软负载能力(alpha版本,仅支持测试对接,不推荐生产环境使用)

  • 支持加入边缘计算节点

  • 节点IP变更后集群可以正常运行(alpha版本,仅支持测试对接,不推荐生产环境使用)

  • 其他若干易用性提升

Bug Fix

  • 修复了客户修改K8s context后,Trident无法正常使用的问题

  • coredns 适配 alpine 3.13 版本以上镜像的DNS解析问题

  • 修复了libseccomp缺失问题

  • 修复了modprobe未持久化开启的问题

  • 优化了nls等待超时的问题

  • 修复本期运维控制台部分监控页面未隐藏菜单的问题

  • 修复本期运维控制台Pod状态展示可能错误的问题

  • 修复本期运维控制台首页告警条目与统计数量可能不一致的问题

  • 其他若干稳定性优化

v1.3.0

新特性

  • K8s版本从v1.16.9-aliyun.1更换为v1.20.4-aliyun.1,推荐大家使用新版本K8s,它带来了更好的可运维性,暂时影响ADP底座从1.2.1升级到1.3.0不兼容;

  • 支持使用containerd作为容器运行时,如不指定则还是会默认使用docker;

  • 支持etcd backup能力;

  • 支持DNS-Cache能力(需要在部署时主动选择开启此特性,默认关闭);

  • calico/rama支持IO限流能力;

  • 提供了跨故障域的软亲和策略;

  • ADP-Local支持白屏化的应用存储备份;

  • ADP-Local支持组件诊断资源分析;

  • ADP-Local支持组件日志聚合查询和统计;

  • ADP-Local新增白屏化运维操作:通用PVC存储扩容、Redis水平扩容、RocketMQ垂直扩缩容、MySQL自动主备切换、MySQL手工主备切换;

  • 打包支持底座包与应用包分离,同时支持全量包;

Bug Fix

  • 修复ADP-Local在不选择adp-local-operation组件时,无法启动的问题;

  • 修复license过期后无法注册的问题;

v1.2.1

Bug fix

  • 兼容1180版本不指定etcd独立盘的配置方法;

  • 修复了巡检工具无法正确暴露metrics的bug;

v1.2.0

新特性

  • 新增etcd定期备份功能;

  • 提供底座核心组件可观测能力;

  • 支持对各节点指定不同的docker、etcd、yoda块设备及设备大小,从而支持更灵活的部署配置;

  • PVC自动扩容组件去除对Prometheus的依赖,并从Trident-addons下沉到Trident;

Bug fix

  • 修复了Trident在多网卡场景下会选错网卡而部署失败的bug;

  • 修复了apiserver随机选择端口连接etcd,导致nimitz要使用的端口被占用的bug;

  • 修复了Trident清理后有残留containerd-shim托管进程的bug;

  • 修复了rpm安装失败后不会中断部署的bug,并给出了rpmdb broken的修复建议;

  • 升级了csi-minio的版本以修复部分bug;

  • 优化了远程执行命令失败后,日志不会吐出命令输出的问题;

  • 优化了部分日志的格式;

v1.1.1

  • 上架底座运维插件;

  • 下架本地控制台;

v1.1.0

新特性

  • 新增Yoda多块数据盘/分区的配置功能,并支持按节点粒度灵活、按需地配置;

  • 新增核心组件(不包含K8s版本)的升级能力,目前支持的升级路径为1.1.7.x=>1.1.8.x,并支持相应的回滚能力;

  • 新增监控大盘,暴露了计算、存储、网络等关键信息,便于运维排错;(监控配置当前放在Trident-addon库中);

  • 新增报告功能,可以获取节点硬件信息并生成报告;

  • 新增根据实际环境判断是否安装组件rpm包的功能,可灵活配置以支持多种IaaS场景;

  • 新增可配置项:CgroupDriver/DockerLimitNofile;

  • 本版本在Gatling自动测试基础上,增加了破坏性手动测试、自动化升级测试;

  • Master0节点支持一键替换。目前,所有节点具备可替换能力;

  • 原/var/lib/docker/logs分区更改为/var/lib/kubelet分区,降低磁盘压力导致节点驱逐的风险;

  • 所有会持续写磁盘的组件都已用独立分区隔离,对系统盘的磁盘需求量不超过5G;

  • 优化了部分OS配置;

Bug Fix

  • 去掉了影响coredns高可用的toleration;

  • 修复了coredns可能被部署在同一个节点上的bug;

  • 修复了Preflight在master为2时,误认为worker为master的bug;

  • 修复了docker在某些环境无法拉起container的bug;

  • 修复了磁盘初始化分区概率性出错的bug;

v1.0.5

新特性

  • 新增本地单副本镜像仓库,镜像使用了新的打包解包模式,实现7分钟内完成部署(1.1.7之前版本为14分钟),实现2分钟完成任意数量节点扩容(1.1.7之前版本为10分钟);

  • 新增支持使用API扩容节点的能力,并和集群部署能力统一为一个声明式API,降低使用成本;

  • 支持存储监控(需安装trident-addons);

  • 支持PV自动扩容(需安装trident-addons);

  • 支持MinIO S3对象存储(默认不安装);

  • 支持多读多写PV(Alpha特性,默认不安装,S3FS依赖底座S3对象存储);

  • 新增本地单副本镜像仓库,规避了“在直接load镜像模式下,发生节点硬盘压力后导致管控服务无法自动恢复的问题”;

  • 新增部署预检功能,对部署所需的OS、kernel、hostname、节点资源、时钟服务、网络、存储等进行检测,帮助Trident在交付前减少底层环境的不确定性;

  • 新增部署后检功能,对集群部署后的K8s基础组件、网络状况、存储状况、DNS、docker、kubelet等进行检验,提升交付的正确性;

  • 新增健康检查功能,使用trident health-check一键检查Trident健康状态;

  • 新增集群关键运维信息导出功能,支持在集群发生运维问题时,一键导出Trident关键组件信息(Alpha特性);

  • 多场景快速验证系统Gatling接入Chorus流水线,并投入使用,在相同时长内可并发测试多套场景,并减少测试用例的接入时长;

Bug Fix

  • 修复etcd挂盘初始化的bug,由于trident对etcd盘mkfs没有进行force,导致在某些环境中,trident安装会block在etcd盘初始化;

  • 修复hostalias在IP更换后不会更新的bug;

  • 修复了etcd监控信息没有暴露的bug;

  • 优化了代码出错处理逻辑,进行了更严格的出错处理;

v1.0.4

新特性

  • 优化了时钟同步功能,接口为ClusterAPIConfig的.spec.ntpServers字段,类型是string数组,使用方法如下:

    • 若用户已为集群配置好ntpd/chronyd服务,.spec.ntpServers不填;

    • 若用户尚未配置ntpd/chronyd服务,但有外部时钟服务器,则将.spec.ntpServers字段设置为外部时钟服务器的IP地址;

    • 若用户尚未配置ntpd/chronyd服务,且没有外部时钟服务器,则将.spec.ntpServers字段设置为master 0的IP地址;

  • 支持YodaPV扩容能力;

  • 升级docker至19.03.15版本,同时优化了一些部署参数;

Bug Fix

  • 修复了master节点并发添加会偶发某些master加入失败的问题;

  • 修复了节点没有默认路由的问题;

阿里云首页 云原生应用交付平台 相关技术圈