案例背景

克拉克拉(KilaKila)是国内专注二次元、主打年轻用户的娱乐互动内容社区软件。KilaKila 推出互动语音直播、短视频配音、对话小说等功能,满足当下年轻用户个性化、碎片化的文娱需求。随着业务规模增长,海量数据存储与计算的瓶颈也日益突出,由于单台服务器的处理能力有限,海量数据的分析需要分布式计算模型。分布式的计算模型对数据分析人员要求较高且不易维护:数据分析人员不仅需要了解业务需求,同时还需要熟悉底层分布式计算模型。MaxCompute提供完善的数据导入方案以及多种经典的分布式计算模型,可快速解决克拉克拉所面临的海量数据的计算问题,有效降低企业成本并保障数据安全。对于使用方的我们不必关心分布式计算和维护细节便可轻松完成大数据分析,最终我们采用阿里云MaxCompute方案进行数据上云。

数据上云

克拉克拉(KilaKila)数据源主要分为两部分:结构化业务数据表(MySQL)和非结构化用户行为日志。
  • 结构化业务库上云主要使用阿里云DataX、DTS两种工具。 克拉克拉:业务上云

    DataX原理是将MySQL数据完全透明化同步至MaxCompute数据表中,是表对表的映射。

    克拉克拉:DTS

    DTS 主要以MySQL binlog方式来进行数据同步,该同步的优势在于不会影响线上生产环境MySQL库I/O压力,与此同时对于删除操作也会进行实时同步。

  • 用户行为日志上云,该日志主要使用阿里云日志服务(Log Service)组件。该组件除了满足将海量日志存储在MaxCompute数据仓库中外,也解决了实时业务计算需求,如storm集群。
    图 1. 克拉克拉:日志处理
    克拉克拉:日志处理

数据计算

为满足各类批处理计算业务需求,基于MaxCompute 建立了小时维度、天维度、月维度等不同维度的工作流以及业务流程。在数据开发阶段我们使用MaxCompute 的Web DataWorks 进行任务开发、任务运维、任务监控等。

在DataWorks 中可以创建SQL 脚本,通过编写SQL 语言满足我们的临时查询需求。

在DataWorks 中可以根据业务场景配置工作流,解决生产环节中所面临的定时计算任务等诉求。

运维中心可实时监控任务的状态,对应不同的任务状态进行不同情况的报警; 综上所诉,得益于DataWorks 强大的数据开发多样性和丰富的内置函数,我们可以针对不同业务场景进行快速的项目开发和上线。

克拉克拉业务应用场景

克拉克拉(KilaKila)在实际生产环境中,主要有以下四个数据业务应用场景。 如下:
  • 报表系统
    基于MaxCompute 与Quick BI 组合快速构建了业务报表系统。该系统通过 DataWorks 部署系列报表计算任务,最终的计算结果可存储MaxCompute 表中以及 MySQL 表中。Quick BI 通过数据源关联即可实现前端趋势图灵活展示。克拉克拉:报表系统
  • 克拉克拉(KilaKila)榜单业务
    通过MaxCompute 满足了克拉克拉主播排行榜、热门榜单等排序业务。克拉克拉:榜单业务
  • 对外开放接口平台(Restful API )
    为了满足第三方通过API 接口获取克拉克拉数据仓库中的用户标签数据,基于 MaxCompute Lightning 架构搭建开放接口服务,通过该服务的网关鉴权机制保证了授权访问和防DDoS 攻击。克拉克拉:API
  • 算法业务
    阿里云机器学习平台是构建在阿里云MaxCompute(原ODPS)计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平台。克拉克拉 (KilaKila)预测算法业务、推荐业务等相关项目均建立在机器学习平台基础上,项目上线快且效果符合预期。克拉克拉:算法业务

通过阿里云所提供大数据解决方案,除了解决了克拉克拉所遇到的大数据挑战, 也极大的缩短了克拉克拉(Kilakila)诸多数据项目从想法到落地的研发周期。

相关产品

  • 大数据计算服务 · MaxCompute

    MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。

    更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页

  • DataWorks

    DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。 同时能满足用户对数据治理、质量管理需求,赋予用户对外提供数据服务的能力。

    更多关于阿里云DataWorks的介绍,参见DataWorks 产品详情页

  • 对象存储OSS

    阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于 99.9999999999%(12 个 9),服务设计可用性(或业务连续性)不低于 99.995%。

    更多关于对象存储OSS的介绍,参见对象存储OSS产品详情页

  • 机器学习PAI

    阿里云机器学习平台PAI(Platform of Artificial Intelligence),为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务。

    更多关于机器学习PAI的介绍,参见机器学习PAI产品详情页

  • 日志服务 SLS

    一站式提供数据收集、清洗、分析、可视化和告警功能。全面提升海量日志处理能力,实时挖掘数据价值,智能助力研发/运维/运营/安全等场景。

    更多关于日志服务的介绍,参见日志服务产品详情页