产品核心优势及开源对比分析-应用实时监控服务-阿里云

ARMS应用监控是一款应用性能管理（Application Performance Management，简称APM）产品。您无需修改代码，只需为应用安装一个探针，ARMS就能够对应用进行全方位监控，帮助您全面掌控应用运行状态，快速定位出错接口和慢接口，洞察性能瓶颈，重现调用参数、从而大幅提升线上问题诊断的效率。阿里云ARMS应用监控的优势包含以下几点。

开箱即用	稳定性保障	规模无上限
基于探针技术，在运行态进行字节码增强，无需修改代码，实现应用性能管理能力。容器服务ACK和ECS环境下探针自动注入，一键接入，支持探针自动升级。从探针注入、数据计算、数据存储、可视化呈现，到告警对接，用户不需要搭建任何组件，就能实现可观测能力的闭环。对于部署在线下IDC以及其他云上的应用，同样可以快速接入。	数据采集、处理和存储组件支持多副本横向扩展，保证核心数据链路高可用。高稳定性探针，每次版本更新都经过了充分的验证，并提供SLA保障。通过惰性类加载、无损计数、链路限流采样保护、URL自动收敛、长文本压缩编码、内存控制等手段，保障探针长时间稳定运行，并对应用的性能影响在可控范围内。	充分利用云上分布式存储能力，数据存储无上限，不再受限于本地容量，确保数据上报以及查询的稳定性。在超大规模微服务系统上，满足10万以上应用实例同时接入的能力。

高阶诊断能力	集成能力 & 开源兼容	低成本
基于真实业务场景沉淀专家级SRE经验，构建智能洞察能力，针对N+1问题、流量突增、延迟突增等场景，实现一键触达根因。提供在线持续剖析，可以有效发现Java程序中因为CPU、内存和IO导致的瓶颈问题，并且按照方法名称、类名称和行号进行细分统计，帮助用户排查疑难问题。提供线程分析能力，并对于慢调用场景自动保存本地方法栈信息，帮助用户剖析本地方法栈执行过程中的性能瓶颈。集成线上问题诊断利器Arthas，利用字节码增强技术，可以在不重启进程的情况下，查看应用运行的明细情况，比如方法的参数、异常、返回值。	集成ARMS告警平台，支持多渠道推送、告警工作流、分组、压缩、降噪等能力，帮助用户完成ITSM闭环。深度融合OpenTelemetry标准，可以实现多语言、异构技术栈之间的链路互通。应用指标数据统一保存在用户名下的可观测监控 Prometheus 版实例中，并提供了默认的Grafana大盘，您可以基于PromQL等标准进行深度定制和二次开发。	可观测服务端组件全托管，免运维。随启随停，按真实使用量收费。通过端侧预聚合技术以及自适应采样技术，确保数据准确性不受采样率影响，在大规模场景下有着明显的成本优势。通过容器服务ACK接入可以享受计费减半的优惠，通过叠加资源包（最高2折），能进一步降低费用成本。

ARMS应用监控与开源产品对比

优势对比项	阿里云应用监控	开源APM
购买资源和系统搭建	阿里云全托管	自行购买相关资源并部署系统
运维成本	免运维	日常自行运维
应用接入	容器服务ACK和ECS环境支持一键接入，探针自动升级。	手工接入，配置工作量大，不支持探针自动升级。
性能开销	性能开销低于5%。通过惰性类加载、无损计数、链路限流采样保护、URL自动收敛、长文本压缩编码、内存控制等技术，保障探针长时间稳定运行。	在高吞吐量场景下，性能开销会在10%以上，稳定性无法保障。
SLA保障	99.5% SLA保障。支持多可用区容灾、SLO 监控预警、应急响应值班等措施。	不提供
性能与水平扩展	支持10万节点规模的自动水平扩展	自行解决分布式水平扩展问题
应用标签 & 实例标签	查看指定标签的拓扑、监控、链路数据。	不支持
Dubbo埋点能力	详细记录路由、寻址、编码等各段耗时。	只支持粗粒度埋点
无损统计	通过端侧预聚合技术以及自适应采样技术采集应用调用链，确保采样准确性不受采样率影响。	不支持，必须依赖100%采样。
业务接口监控	以代码无侵入的方式，可视化定义业务请求，提供贴合业务的丰富性能指标与诊断能力。	需要修改业务代码
接口名称收敛	支持自动收敛和手动配置正则两种收敛方式，白屏配置，无需重启应用。	需要手工写入配置文件，并重启应用。
本地方法栈分析	并对于慢调用场景自动保存本地方法栈信息，随时回溯，帮助用户剖析本地方法栈执行过程中的性能瓶颈。	仅支持对特定服务手动触发本地方法栈信息保存。
线程分析	提供线程粒度的CPU耗时和每类线程数量的统计，可真实还原代码执行过程。	不支持
线程池监控/连接池监控	支持对特定的线程池（例如Tomcat、Dubbo）以及特定的连接池（例如Druid）进行监控。	不支持
异常分析/错误分析	提供独立的异常分析以及错误分析视图。	不支持
前后端链路串连	与ARMS前端监控集成，实现用户界面与服务端应用的全链路打通，可以在同一个页面看到完整链路。	不支持
智能洞察	基于真实业务场景沉淀专家级SRE经验，针对N+1问题、流量突增、延迟突增等场景，实现一键触达根因。	不支持
内存快照	在线创建内存快照，并提供在线分析工具，帮助用户排查内存泄漏和内存浪费等内存问题。	不支持
Arthas集成	利用字节码增强技术，可以在不重启进程的情况下，查看应用运行的明细情况，比如方法的参数、异常、返回值。	不支持
告警规则	针对JVM、主机、接口服务情况等指标类型，预置了50种以上的告警规则，通过白屏化方式配置，除基本算子外，支持同环比，支持智能阈值配置能力。	仅支持配置文件配置，仅支持简单的大于、小于、等于算子。
告警通知	并集成ARMS告警平台，支持多渠道推送、告警工作流、分组、压缩、降噪等能力，帮助用户完成ITSM闭环。	需要另外搭建告警相关组件，对于误报、告警风暴等问题，缺少成熟的解决方案。
Prometheus集成	应用指标数据统一保存在用户名下的可观测监控 Prometheus 版实例中，并提供了默认的Grafana大盘，您可以基于PromQL等标准进行深度定制和二次开发。	不支持
成本	随启随停，按真实使用量收费，并可以通过容器服务ACK接入以及预付费资源包，更进一步降低费用成本。	需要用户自行搭建一整套技术组件，并做好容量规划。由于依赖100%采样来确保指标准确性，当请求量达到一定规模的时候，成本急剧飙升。
专家服务	通过工单系统，可以与SRE领域专家交流疑难问题的定位经验。	不提供