对图片中的人脸进行定位,并对唇动的程度进行检测,输出用户唇动的大小,可应用于多模态场景,和语音算法一起降低传统语音唤醒算法的误唤醒。
说明
阿里云视觉智能开放平台各类目视觉AI能力SDK接入、接口使用或问题咨询等,请通过钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系我们。
能力优势
多模态唤醒:可以与语音唤醒结合,降低高噪情况下误唤醒。
可应用多模态场景:可应用于多模态场景,和语音算法一起降低传统语音唤醒算法的误唤醒。
应用场景
车内唇动辅助唤醒:利用视觉VAD,解决车内高噪情况下语音无法闭麦情况,提供语音指令达成率。
前提条件
该离线SDK目前不支持线上直接支付下单,请提交申请使用。
支持终端
Android、iOS
约束与限制
Android系统:Android 5.0以上,minSdkVersion低于23,设备包含相机模块和陀螺仪模块。
iOS系统:iOS 10以上,支持iPhone 5s以上系列机型,设备包含相机模块。
推荐相机分辨率:原生相机的分辨率大于640×480像素,小于1280×720像素。分辨率过大会降低SDK速度。
如需使用iOS系统iPhone 5s及以下、Android低端机型,请联系我们。
接入使用方式
重要 本SDK不会对SDK原厂商传输任何数据。因此,如果您使用本SDK收集个人信息,您将作为数据处理者,原厂商不作为数据处理者或受托处理者。您应当依照相关法律法规,对用户充分告知并获得授权。请您注意在告知用户时,原厂商不应作为数据处理者,亦不应作为受托处理者。
Android:Android集成开发指南。
iOS:iOS集成开发指南。
文档内容是否对您有帮助?