全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网

数据导入

更新时间:2017-09-12 12:42:23

数据导入是完成智能对话分析的第一步,用户可以通过两种方式导入数据

本地音频文件上传

如果需要快速试用功能,可以使用这种方式来上传本地音频。
1. 在“对话数据”中点击右上角的新增数据集
新增数据集2. 在弹出的对话框中选择“本地文件上传”
本地文件上传

同步OSS上的音频文件

如果需要在生产环境中使用,则需要同步OSS上的音频文件,这部分步骤稍微多一些,请按照以下流程逐步进行配置。配置主要包含两个部分:

  1. OSS中上传需要检测的音频文件。音频样例下载
  2. 在系统中配置OSS数据集

完成这两步之后,分析系统会从OSS中读取音频文件进行系统处理。其中第一步在OSS中上传文件,可以在OSS帮助文档中学习,本文建立在完成OSS文件上传的基础上,讲解如何完成在智能对话分析系统中的数据集设置。

数据导入配置

1. 登录OSS管控台获取OSS名字和域名。(以下假定名为qualitycheckbucket的OSS Bucket作为智能对话分析服务的数据集创建)
内网域名,取自Bucket概览 - OSS域名 - OSS内网域名中,但是请注意,只截取去除掉Bucket名后剩余的部分。如下图红框所示,qualitycheckbucket.oss-cn-shanghai-internal.aliyuncs.com,只截取 oss-cn-shanghai-internal.aliyuncs.com作为内网域名。

获取OSS名字和域名

图1. 获取OSS名字和域名

2. 创建用于分析的文件夹,以区分用于不同目的的数据集,例如:

创建文件夹

图2. 创建用于分析的文件夹,以区分用于不同目的的数据集
3. 只有经过用户授权访问的OSS Bucket空间,分析系统才能进行数去读取。以下需要进入阿里云账号的“访问控制”页面,对Bucket进行权限控制。例如假定:
  1) 仅使用上述qualitycheckbucket用作分析目的,而且对此bucket应该仅具备读取权限;
  2) 其他的Bucket不允许分析系统访问:
  • 创建自定义策略:
    创建自定义策略

    图3. 创建自定义策略

  • 创建策略:
    创建策略

    图4. 创建策略

  • 编辑并提交:
    编辑并提交
    策略内容,请注意在使用的时候修改以下Resource中的BucketName为客户自己创建的BucketName(qualitycheckbucket -> <your bucket name>):

    1. {
    2. "Version": "1",
    3. "Statement": [
    4. {
    5. "Effect": "Allow",
    6. "Action": "oss:ListBuckets",
    7. "Resource": "acs:oss:*:*:*"
    8. },
    9. {
    10. "Effect": "Allow",
    11. "Action": [
    12. "oss:ListObjects",
    13. "oss:GetBucketAcl"
    14. ],
    15. "Resource": "acs:oss:*:*:qualitycheckbucket"
    16. },
    17. {
    18. "Effect": "Allow",
    19. "Action": [
    20. "oss:GetObject",
    21. "oss:GetObjectAcl"
    22. ],
    23. "Resource": "acs:oss:*:*:qualitycheckbucket/*"
    24. }
    25. ]
    26. }
  • 在自定义授权策略中可查看自定义的策略
    自定义策略
4. 创建角色,通过STS方式对智能对话分析用户进行授权
  • 创建角色
    创建角色
    图5. 创建角色1
  • 填写类型信息时,云账号选择“其他云账号”,授信云账号ID输入: 1733149043164104
    不要用自己的ID,一定要输入这个ID创建角色

    图6. 创建角色2

  • 编辑角色授权策略
    角色授权策略

    图7. 授信

  • 选择刚创建过的策略
    刚创建过的策略

    图8. 刚创建过的策略1

5. 查看角色,获取RoleArn:

管理角色查看角色

图10. 查看角色
6. 到分析系统中进行数据集的创建

数据集

图11. 到分析系统中进行数据集的创建

对话文本数据格式

如果待分析的数据是对话文本,需要遵循固定格式,用户需要将对话文本保存为JSON文件存在OSS上,每个JSON文件对应一段完整对话,需要遵循以下格式规范

请求参数JSON字符串:

属性 值类型 是否必须 说明
appKey String 业务方或者业务场景的标记
tickets List 业务方的待检文本数据信息

待检文本字段tickets描述:

属性 值类型 是否必须 说明
role String 对话内容角色
identity String 对话角色的具体身份标识
words String 这个角色说的一句话
begin Integer 相对本次会话起始点的开始时间偏移,单位ms
end Integer 相对本次会话起始点的结束时间偏移,单位ms
beginTime Date 这句话的开始时间必须填写避免重复分析

以下是一个实例JSON,供用户参考(为了可读性这里把JSON内容分行显示,实际使用中需要把JSON代码块浓缩成单行):

  1. {
  2. "tickets": [
  3. {
  4. "dialogue": [
  5. {
  6. "identity": "wzkf.com",
  7. "words": "域名 : domain.com 主机名 : hostname 可否调试 : 是,允许技术支持调试 问题描述 : ftp无法上传内容,后台无法正常登陆",
  8. "role": "客户",
  9. "hourMinSec": "00:00",
  10. "beginTime": 1479801028000,
  11. "end": 0,
  12. "begin": 0
  13. },
  14. {
  15. "identity": "于",
  16. "words": "您的问题我们已收到,会尽快为您查看。请您耐心等待,谢谢!。您好,我们根据您的问题情况检查进度如下: 查看服务器负载正常,网站可以访问,ftp无法上传,请您提供下报错截图,以便核实,谢谢。",
  17. "role": "客服",
  18. "hourMinSec": "05:07",
  19. "beginTime": 1479801335000,
  20. "end": 356000,
  21. "begin": 307000
  22. },
  23. {
  24. "identity": "wzkf",
  25. "words": "请处理",
  26. "role": "客户",
  27. "hourMinSec": "19:50",
  28. "beginTime": 1479802218000,
  29. "end": 1190000,
  30. "begin": 1190000
  31. },
  32. {
  33. "identity": "于",
  34. "words": "您好,您是否能提供下ftp密码,测试核实,谢谢。",
  35. "role": "客服",
  36. "hourMinSec": "27:15",
  37. "beginTime": 1479802663000,
  38. "end": 1635000,
  39. "begin": 1635000
  40. },
  41. {
  42. "identity": "wzkf",
  43. "words": "ftp写权限被关,密码是abcdpassword",
  44. "role": "客户",
  45. "hourMinSec": "38:25",
  46. "beginTime": 1479803333000,
  47. "end": 2305000,
  48. "begin": 2305000
  49. },
  50. {
  51. "identity": "于",
  52. "words": "您好,测试上传test.jpg可以正常上传,查看您上传的文件是count.asp,目录上有重复文件,建议您先将此文件删除后,再测试上传,谢谢。",
  53. "role": "客服",
  54. "hourMinSec": "46:21",
  55. "beginTime": 1479803809000,
  56. "end": 2781000,
  57. "begin": 2781000
  58. },
  59. {
  60. "identity": "wzkf",
  61. "words": "无法删除文件",
  62. "role": "客户",
  63. "hourMinSec": "51:13",
  64. "beginTime": 1479804101000,
  65. "end": 3073000,
  66. "begin": 3073000
  67. },
  68. {
  69. "identity": "于",
  70. "words": "您好,帮您把文件重命名为c.bak,请您上传测试,谢谢。",
  71. "role": "客服",
  72. "hourMinSec": "53:05",
  73. "beginTime": 1479804213000,
  74. "end": 3185000,
  75. "begin": 3185000
  76. },
  77. {
  78. "identity": "wzkf",
  79. "words": "文件无法删除,请帮忙处理",
  80. "role": "客户",
  81. "hourMinSec": "01:05:17",
  82. "beginTime": 1479804945000,
  83. "end": 3917000,
  84. "begin": 3917000
  85. },
  86. {
  87. "identity": "于",
  88. "words": "您好,不需要删除,请您重新上传您要上传的文件测试,谢谢。",
  89. "role": "客服",
  90. "hourMinSec": "01:07:10",
  91. "beginTime": 1479805058000,
  92. "end": 4030000,
  93. "begin": 4030000
  94. }
  95. ],
  96. "tid": "ThisIsForTesting"
  97. }
  98. ],
  99. "appKey": "1799669499440605"
  100. }

以上JSON内容的单行显示:

  1. {"tickets":[{"dialogue":[{"identity":"wzkf.com","words":"域名 : domain.com 主机名 : hostname 可否调试 : 是,允许技术支持调试 问题描述 : ftp无法上传内容,后台无法正常登陆","role":"客户","hourMinSec":"00:00","beginTime":1479801028000,"end":0,"begin":0},{"identity":"于","words":"您的问题我们已收到,会尽快为您查看。请您耐心等待,谢谢!。您好,我们根据您的问题情况检查进度如下: 查看服务器负载正常,网站可以访问,ftp无法上传,请您提供下报错截图,以便核实,谢谢。","role":"客服","hourMinSec":"05:07","beginTime":1479801335000,"end":356000,"begin":307000},{"identity":"wzkf","words":"请处理","role":"客户","hourMinSec":"19:50","beginTime":1479802218000,"end":1190000,"begin":1190000},{"identity":"于","words":"您好,您是否能提供下ftp密码,测试核实,谢谢。","role":"客服","hourMinSec":"27:15","beginTime":1479802663000,"end":1635000,"begin":1635000},{"identity":"wzkf","words":"ftp写权限被关,密码是abcdpassword","role":"客户","hourMinSec":"38:25","beginTime":1479803333000,"end":2305000,"begin":2305000},{"identity":"于","words":"您好,测试上传test.jpg可以正常上传,查看您上传的文件是count.asp,目录上有重复文件,建议您先将此文件删除后,再测试上传,谢谢。","role":"客服","hourMinSec":"46:21","beginTime":1479803809000,"end":2781000,"begin":2781000},{"identity":"wzkf","words":"无法删除文件","role":"客户","hourMinSec":"51:13","beginTime":1479804101000,"end":3073000,"begin":3073000},{"identity":"于","words":"您好,帮您把文件重命名为c.bak,请您上传测试,谢谢。","role":"客服","hourMinSec":"53:05","beginTime":1479804213000,"end":3185000,"begin":3185000},{"identity":"wzkf","words":"文件无法删除,请帮忙处理","role":"客户","hourMinSec":"01:05:17","beginTime":1479804945000,"end":3917000,"begin":3917000},{"identity":"于","words":"您好,不需要删除,请您重新上传您要上传的文件测试,谢谢。","role":"客服","hourMinSec":"01:07:10","beginTime":1479805058000,"end":4030000,"begin":4030000}],"tid":"ThisIsForTesting"}],"appKey":"1799669499440605"}
本文导读目录