ADP底座/本地运维控制台
ADP底座/本地运维控制台发布记录。
V1.4.6
Bug Fix
修复某些场景下垂直扩缩容运维操作报错的问题
修复Redis水平扩容运维操作无效的问题
修复Redis sentinel模式下不支持垂直扩容的问题
修复运维操作执行结果被后续运维操作回滚的问题
修复Grafana循环登录需要清理浏览器缓存的问题
V1.4.5
Bug Fix
修复组件列表排序混乱的问题
修复组件容器组列表偶现不展示的问题
修复集群管理中节点列表无法翻页的问题
修复adp-local-0 Pod经常OOM的问题
修复非登录状态下可查看审计日志的问题
V1.4.4
新特性
本地运维控制台新增集群体检功能
能够展示集群整体健康分和健康等级,并展示集群体检检测项及异常情况
多维度展示CPU、内存、存储的资源分布
本地运维控制台更新监控告警功能
消息通道新增钉钉工作消息、阿里云SMS、企业微信、Webhook类型
告警消息新增在线诊断能力
监控指标支持查看exporter采集的基础指标,并可以展示指标趋势图
监控指标、告警策略新增配置方式
本地运维控制台更新日志采集功能
标准输出支持字段提取
支持按JSON模式进行日志提取
文件采集路径支持加载卷名称
本地运维控制台更新节点管理功能
节点扩容支持指定kubelet/docker分区大小
新增节点下线功能
首页支持kubectl工具箱,可以进行黑屏诊断
中间件默认支持PVC存储扩容、垂直扩容运维操作
支持1.2.x、1.3.x、1.4.x离线升级到1.4.4版本
Bug Fix
修复告警通知事件偶尔丢失的问题
修复订阅组没有配置消息通道仍然接收到告警的问题
修复部分中间件监控大盘展示不全的问题
修复Pod Crash后无法进行Pod Debug的问题
修复底座自带PrometheusRule监控告警规则报error和warn问题
V1.4.3
新特性
本地运维控制台告警功能更新
新增告警订阅组配置功能,支持按不同通道及不同告警等级分发告警消息
告警消息支持自定义模板
支持同一告警策略多订阅组共同分发
支持表达式自定义告警规则
本地运维控制台日志功能更新
支持自定义日志采集对象、自定义表达式设置日志标签
日志可视化查询及过滤、按标签查询
支持通过日志标签转化为监控指标
本地运维控制台新增PodDebug、NodeDebug终端工具
本地运维控制台节点管理功能新增节点维护功能,支持以命令行模式扩容节点,并且增强了扩容的可重入能力
本地运维控制台集群监控大盘更新展示形式
底座新增Anolis、Kylin等OS的适配
Bug Fix
修复部分数据指标不准确的问题
v1.4.3-ack-beta
Bug Fix
优化产品及组件部署状态信息
修复某些场景下访问ACR镜像仓库失败的问题
v1.4.2
新特性
Bug Fix
本地运维控制台新版首页大盘,完善统计信息,便于更及时发现异常
故障诊断,支持导出离线诊断数据,便于远程运维分析
Harbor组件增加垂直扩缩容、水平扩缩容能力
节点白屏扩容,在节点管理界面可进行添加节点的操作
提供基于备份的还原操作,在完成了备份后,可基于备份对实例进行还原
提供了全新的License注册及查询能力
提供GPU Share调度能力的alpha功能,默认关闭,只供测试;
Registry将默认开启认证机制,集群内docker天然可访问
修复了Grafana使用匿名模式免登录的安全问题,修改为了自动登录
v1.4.1-beta
Bug Fix
修复在local初始化过程中,可能因annotation.namespace为空导致组件关联资源查询和部分组件的运维操作功能异常
修复trident从v1.1.9升级至1.11时PV创建Pending的问题
v1.4.0
新特性
线下故障诊断:本地运维控制台提供故障诊断大盘
可视化资源状态展示,辅助进行问题定位和根因分析。
针对常见故障场景,提供修复方案和处理建议。
组件运维操作可视化:本地运维控制台新增以下几项白屏化运维操作
prometheus、loki、local:新增水平扩容、垂直扩容、PVC存储扩缩容
所有谐云中间件:新增水平扩容、垂直扩容、PVC存储扩缩容、主备切换
本地运维控制台的日志查询,支持按本地文件筛选查看
当节点只具备一块系统盘,不具备单独的数据盘时也能完成底座部署(无法进行容量隔离,不推荐生产环境使用)
增强环境预检能力,扩展预检范围:NTP预检、ipip协议预检、linux内核安全性的预检、集群内防火墙的预检、CIDR校验
Trident版本升级支持:
v1.1.9->v1.11.0(该升级中涉及K8s版本变更,将从v1.16升级到v1.20,过程大概1小时内完成,其中有20分钟内,集群内DNS解析可能不稳定,且无法新创建工作负载)
v1.10.0-v1.11.0
通过ParaLB提供软负载能力(alpha版本,仅支持测试对接,不推荐生产环境使用)
支持加入边缘计算节点
节点IP变更后集群可以正常运行(alpha版本,仅支持测试对接,不推荐生产环境使用)
其他若干易用性提升
Bug Fix
修复了客户修改K8s context后,Trident无法正常使用的问题
coredns 适配 alpine 3.13 版本以上镜像的DNS解析问题
修复了libseccomp缺失问题
修复了modprobe未持久化开启的问题
优化了nls等待超时的问题
修复本期运维控制台部分监控页面未隐藏菜单的问题
修复本期运维控制台Pod状态展示可能错误的问题
修复本期运维控制台首页告警条目与统计数量可能不一致的问题
其他若干稳定性优化
v1.3.0
新特性
K8s版本从v1.16.9-aliyun.1更换为v1.20.4-aliyun.1,推荐大家使用新版本K8s,它带来了更好的可运维性,暂时影响ADP底座从1.2.1升级到1.3.0不兼容;
支持使用containerd作为容器运行时,如不指定则还是会默认使用docker;
支持etcd backup能力;
支持DNS-Cache能力(需要在部署时主动选择开启此特性,默认关闭);
calico/rama支持IO限流能力;
提供了跨故障域的软亲和策略;
ADP-Local支持白屏化的应用存储备份;
ADP-Local支持组件诊断资源分析;
ADP-Local支持组件日志聚合查询和统计;
ADP-Local新增白屏化运维操作:通用PVC存储扩容、Redis水平扩容、RocketMQ垂直扩缩容、MySQL自动主备切换、MySQL手工主备切换;
打包支持底座包与应用包分离,同时支持全量包;
Bug Fix
修复ADP-Local在不选择adp-local-operation组件时,无法启动的问题;
修复license过期后无法注册的问题;
v1.2.1
Bug fix
兼容1180版本不指定etcd独立盘的配置方法;
修复了巡检工具无法正确暴露metrics的bug;
v1.2.0
新特性
新增etcd定期备份功能;
提供底座核心组件可观测能力;
支持对各节点指定不同的docker、etcd、yoda块设备及设备大小,从而支持更灵活的部署配置;
PVC自动扩容组件去除对Prometheus的依赖,并从Trident-addons下沉到Trident;
Bug fix
修复了Trident在多网卡场景下会选错网卡而部署失败的bug;
修复了apiserver随机选择端口连接etcd,导致nimitz要使用的端口被占用的bug;
修复了Trident清理后有残留containerd-shim托管进程的bug;
修复了rpm安装失败后不会中断部署的bug,并给出了rpmdb broken的修复建议;
升级了csi-minio的版本以修复部分bug;
优化了远程执行命令失败后,日志不会吐出命令输出的问题;
优化了部分日志的格式;
v1.1.1
上架底座运维插件;
下架本地控制台;
v1.1.0
新特性
新增Yoda多块数据盘/分区的配置功能,并支持按节点粒度灵活、按需地配置;
新增核心组件(不包含K8s版本)的升级能力,目前支持的升级路径为1.1.7.x=>1.1.8.x,并支持相应的回滚能力;
新增监控大盘,暴露了计算、存储、网络等关键信息,便于运维排错;(监控配置当前放在Trident-addon库中);
新增报告功能,可以获取节点硬件信息并生成报告;
新增根据实际环境判断是否安装组件rpm包的功能,可灵活配置以支持多种IaaS场景;
新增可配置项:CgroupDriver/DockerLimitNofile;
本版本在Gatling自动测试基础上,增加了破坏性手动测试、自动化升级测试;
Master0节点支持一键替换。目前,所有节点具备可替换能力;
原/var/lib/docker/logs分区更改为/var/lib/kubelet分区,降低磁盘压力导致节点驱逐的风险;
所有会持续写磁盘的组件都已用独立分区隔离,对系统盘的磁盘需求量不超过5G;
优化了部分OS配置;
Bug Fix
去掉了影响coredns高可用的toleration;
修复了coredns可能被部署在同一个节点上的bug;
修复了Preflight在master为2时,误认为worker为master的bug;
修复了docker在某些环境无法拉起container的bug;
修复了磁盘初始化分区概率性出错的bug;
v1.0.5
新特性
新增本地单副本镜像仓库,镜像使用了新的打包解包模式,实现7分钟内完成部署(1.1.7之前版本为14分钟),实现2分钟完成任意数量节点扩容(1.1.7之前版本为10分钟);
新增支持使用API扩容节点的能力,并和集群部署能力统一为一个声明式API,降低使用成本;
支持存储监控(需安装trident-addons);
支持PV自动扩容(需安装trident-addons);
支持MinIO S3对象存储(默认不安装);
支持多读多写PV(Alpha特性,默认不安装,S3FS依赖底座S3对象存储);
新增本地单副本镜像仓库,规避了“在直接load镜像模式下,发生节点硬盘压力后导致管控服务无法自动恢复的问题”;
新增部署预检功能,对部署所需的OS、kernel、hostname、节点资源、时钟服务、网络、存储等进行检测,帮助Trident在交付前减少底层环境的不确定性;
新增部署后检功能,对集群部署后的K8s基础组件、网络状况、存储状况、DNS、docker、kubelet等进行检验,提升交付的正确性;
新增健康检查功能,使用trident health-check一键检查Trident健康状态;
新增集群关键运维信息导出功能,支持在集群发生运维问题时,一键导出Trident关键组件信息(Alpha特性);
多场景快速验证系统Gatling接入Chorus流水线,并投入使用,在相同时长内可并发测试多套场景,并减少测试用例的接入时长;
Bug Fix
修复etcd挂盘初始化的bug,由于trident对etcd盘mkfs没有进行force,导致在某些环境中,trident安装会block在etcd盘初始化;
修复hostalias在IP更换后不会更新的bug;
修复了etcd监控信息没有暴露的bug;
优化了代码出错处理逻辑,进行了更严格的出错处理;
v1.0.4
新特性
优化了时钟同步功能,接口为ClusterAPIConfig的.spec.ntpServers字段,类型是string数组,使用方法如下:
若用户已为集群配置好ntpd/chronyd服务,.spec.ntpServers不填;
若用户尚未配置ntpd/chronyd服务,但有外部时钟服务器,则将.spec.ntpServers字段设置为外部时钟服务器的IP地址;
若用户尚未配置ntpd/chronyd服务,且没有外部时钟服务器,则将.spec.ntpServers字段设置为master 0的IP地址;
支持YodaPV扩容能力;
升级docker至19.03.15版本,同时优化了一些部署参数;
Bug Fix
修复了master节点并发添加会偶发某些master加入失败的问题;
修复了节点没有默认路由的问题;