监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

可观测性的设计原则

通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时,标识符将被添加到请求中,并在整个系统中传递。每个组件都可以将标识符添加到它们的日志中,以便在...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

常见问题FAQ

4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源键,重启魔盒。2.重复插拔HDMI线 3.重启屏幕 屏幕操作指南由屏幕供应商给出。4.屏幕的信号源切换到HDMI输入。屏幕操作指南由屏幕供应商给出。如无法排除故障:...

诊断网页加载过慢的问题

针对这类问题,ARMS前端监控的慢会话追踪功能提供页面静态资源加载的性能瀑布图,可深入定位页面资源加载情况,全方位地诊断故障根源,从而快速排除故障。问题描述 网页加载较慢是经常出现且前端非常关注的问题之一。定位、排查解决这类...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

开发Link Visual的功能介绍

Error 事件 故障事件 设备主动上报故障事件 按需 App和设备开发者需要关注并处理该物模型 抓图功能开发 开发抓图功能时,您需要配置的物模型如下。标识符 功能类型 功能名称 描述 控制台勾选 开发指南 TriggerPicCapture 服务 触发设备抓图...

质检规则配置

例如下图,命中正则表达式:买.*(ssd盘|普通盘),排除正则表达式:用不了|不能用|不生效,所以结合起来就是只匹配用户购买产品的场景,但是要排除故障报修的场景,示例语句:我想买一块ssd盘,应该怎么操作(可命中)/我前两天买了ssd盘...

功能特性

故障演练 故障演练 提供了故障注入能力,通过演练平台主动触发故障,以此观测应用软件的高可用性。故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...

产品计费

阿里云百炼计费项分为三大类:模型推理计费项 模型训练计费项 模型部署计费项 免费额度说明 阿里云百炼大模型服务平台面向新用户根据不同的模型实行不同的免费额度规则。说明 开通即赠送限时限量免费推理资源:适用于不同类型模型,详情请...

产品优势

故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、域外技术风险防控经验,共建日常巡检、故障诊断、应急预案内容库,用户可享受最新的技术...

通过自定义模型识别

DataWorks支持通过您提供的样本字段,进行模型训练,帮助您寻找目标字段的内容特征,生成相应的规则模型。该功能通常用于发现您的数据资产中与该特征内容相似的数据。本文为您介绍如何生成自定义的数据识别模型。使用限制 DataWorks不支持...

设计方案

演练常态化 故障演练提供了一种端到端的测试理念与工具框架,本质是通过主动引入故障来充分验证软件质量的脆弱性。从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障...

添加页面

说明 未主动提交的模型修改后直接退出了编辑或浏览器,即开发者最后尚未主动提交的修改记录为草稿版本,下次进入页面时则直接进入草稿版本。提交回滚:在页面搭建界面单击右侧功能区的 提交记录,进入提交记录页面。您可以选择需要回滚的...

模型配置

在货品推荐中,需要先完成模型配置,当且仅当模型执行成功后,可基于模型进行货品推荐。模型训练成功后,您可以通过模型验证了解该模型的准确率、召回率,并查看商品之间的关联关系。前提条件 算法模型需要依赖行为数据集、商品标签数据集...

什么是物模型

模型是阿里云物联网平台为产品定义的数据模型,用于描述产品的功能。本文介绍物模型相关概念和使用限制。功能说明 物模型是物理空间中的实体(如传感器、车载装置、楼宇、工厂等)在云端的数字化表示,从属性、服务和事件三个维度,分别...

单个添加物模型

模型包括属性、事件和服务。设备与物联网平台之间,可通过物模型实现多场景消息通信。本文介绍如何在物联网平台定义物模型。前提条件 已创建产品。具体操作,请参见 创建产品。使用限制 MQTT型 实例下不支持物模型功能,无法添加物模型。...

概述

在企业数字化转型过程中,基于云计算平台服务,可以让企业快速构建新业务、减少业务故障率、持续观测业务指标、提升业务稳定性,使企业更加专注于业务本身。总体而言,主要包括以下几个关键领域:卓越运营第一个关键领域是确定组织的运营...

使用Topic通信

前提条件 使用物模型Topic通信,需要先 添加物模型。使用自定义Topic通信,需要先定义产品Topic类,具体步骤请参见 使用自定义Topic通信。Topic的概念,请参见 什么是Topic。设备接入物联网平台 将设备接入物联网平台。重要 使用 设备模拟...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

模型预测

可视化配置参数 输入桩 输入桩(从左到右)建议上游组件 对应PAI命令参数 是否必选 输入模型 数据类型:OSS存储的模型 支持的组件:模型训练 saved_model_dir 是 输入表 数据类型:MaxCompute表 支持的组件:SQL脚本、读数据表 input_table...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

Python接口文档

PAI-Blade提供Python接口供您调用,从而将优化模型集成在工作流中。本文介绍这些Python接口的详细信息,包括签名格式、输入参数及返回结果。optimize PAI-Blade主要使用optimize接口进行模型优化,接口详情如下:签名格式 def optimize...

压力模型

基于您的实际业务考虑,一般正常业务链路转化模型应该为漏斗形状。例如,您的正常业务链路为:查看首页-查看商品详情-加入购物车-下单-付款。那么通常情况下,查看首页的用户数会比查看商品详情的用户数多,查看商品详情的用户数也会比加入...

应用场景

通过温度传感器对整个风机的温度测点进行实时监控,并对海量温度数据进行深度学习,构建风机故障检测与感知预测模型,最终做到提前1-2周识别风机微小故障并预警,单台风机单次重大事件维护成本大大降低。生产工艺优化 您可以使用工业大脑...

任务管理高级配置参数说明

模型:每台机器主动拉取子任务,没有木桶效应。拉取过程中,所有子任务会缓存在Master节点,对内存有压力,建议子任务数不超过10,000。推模型 子任务单次拉取数(仅适用于拉模型)并行计算 内存网格 网格计算 Slave节点每次向Master节点...

任务管理高级配置参数说明

模型:每台机器主动拉取子任务,没有木桶效应。拉取过程中,所有子任务会缓存在Master节点,对内存有压力,建议子任务数不超过10,000。推模型 子任务单次拉取数(仅适用于拉模型)并行计算 内存网格 网格计算 Slave节点每次向Master节点...

任务管理高级配置参数说明

模型:每台机器主动拉取子任务,没有木桶效应。拉取过程中,所有子任务会缓存在Master节点,对内存有压力,建议子任务数不超过10,000。推模型 子任务单次拉取数(仅适用于拉模型)并行计算 内存网格 网格计算 Slave节点每次向Master节点...

广播拉取消息模型

消息服务MNS 支持一对多拉取消息消费模型,以满足一对多订阅、主动拉取的场景。本文介绍如何高效利用该模型实现多消费者并行拉取与处理消息。说明 本文以Java SDK为例介绍广播拉取消息流程,其他语言SDK请参见 新版SDK参考(推荐)。前提...

应用故障自动诊断

故障定界:这一部分包含了诊断模型推测出的导致应用故障的浅层原因,一般包含以下3种情况:应用的某个实例故障导致的整体故障。应用的某个接口或者服务故障导致的整体故障。应用的下游应用故障导致本应用故障。根因分析:这一部分包含了...

模型服务网格

模型服务网格(Model Service Mesh)提供了一个可扩展的、高性能的基础架构,用于将多个模型服务进行管理、部署和调度,以此更好地处理模型的部署、版本管理、路由和推理请求的负载均衡。本文介绍模型服务网格的概念和相关功能。什么是模型...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务...当故障演练自动结束、您主动终止或者演练中的任何环节出现异常后,系统都会进入恢复阶段,自动清除相应的故障,使故障演练对象恢复演练前的状态。

安全告警概述

通过威胁检测模型,提供全面的安全告警类型检测,帮助您及时发现资产中的安全威胁、实时掌握资产的安全态势。背景信息 安全告警事件是指云安全中心检测到的您服务器或者云产品中存在的威胁,例如某个恶意IP对资产攻击、资产已被入侵的异常...

网络类场景

排除端口 无需注入网络延迟调用故障的端口,与本地服务端口和远程服务端口功能互斥。可以指定多个,使用逗号分隔,使用连接符表示范围。例如80,8000-8080。远端服务IP 指定演练对象访问的远端服务IP。可以通过子网掩码来指定一个网段的IP...

组件参考:所有组件汇总

组件类型 组件 描述 自定义组件 自定义组件 支持在AI资产管理中创建自定义组件,自定义组件创建成功后,您可以在Designer中将该组件与官方组件串联使用进行模型训练。源/目标 读OSS数据 该组件用来读取对象存储OSS Bucket路径下的文件或...

无法连接Windows实例

故障现象 无法ping通ECS实例,在排除Iptables和网卡IP配置问题且回滚系统后,仍然无法ping通。故障原因 可能是ECS实例安全组默认的公网规则被删除。解决方法 重新配置ECS实例的安全组公网规则,具体操作请参见 ECS实例安全组默认的公网规则...

什么是消息服务MNS

主题模型消息流 主题模型特性 通知消息 消息服务MNS 服务端主动将消息推送到您指定的队列,消除用户端不必要的轮询和资源消耗。您可以将资源集中在处理自身业务的逻辑中,避免对其他消息服务产品客户端的依赖,避免因为过多代码引入而影响...

API插件管理

LLM会根据插件的描述信息判断是否使用该插件解决用户问题,同时会根据插件描述、插件出入参等信息构建 Manifest 信息传递给模型模型根据以上信息对用户的输入进行识别槽位、填补槽位等操作,最终将识别的参数传递给API完成插件的执行。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
人工智能平台 PAI 数据库自治服务 负载均衡 表格存储 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用