文档

司法裁判文书(事实认定)

更新时间:

司法裁判文书(事实认定)。

重要

司法裁判文书(事实认定):抽取司法裁判文书中事实认定的实体,属于自学习平台模型训练算法服务。目前该服务处于试运行阶段,需要提交申请开白名单使用,您可以添加自学习平台答疑二群(钉钉群号:44619071)详细咨询提交申请。

自学习服务使用前,请确认是否已经开通了NLP自学习平台服务,开通后可购买资源包。

NLP自学习平台:开通地址

自学习平台资源包:购买地址

一、创建项目

在NLP自学习平台中【单击进入自学习管控台】,支持多个基本项目和应用算法。在本教程中,我们将引导您掌握通过自学习平台创建一个“司法裁判文书(事实认定)”的项目。

进入“我的项目”或“创建项目”,选择“司法裁判文书(事实认定)”算法单击“创建”。在接下拉的页面填写项目名称和项目描述即可。

司法裁判文书二、数据准备

进入“我的项目”后,可以在数据中心中管理您的数据,有两种方式可以创建数据:

1、创建标注任务;2、上传数据集。

2.1创建标注任务

步骤一:上传待标注文档,添加标注人员

说明

创建者和项目管理员默认为标注人员,同时,您也可以将标注任务分配给您创建的阿里云子账号,被分配用户通过子账号的账号密码登录本平台,即可参与数据标注。

子账号登录说明:

1、子账号登录页,登录:https://signin.aliyun.com/login.htm

2、登录后,单击进入我的项目-创建标注任务。

注意:目前仅支持UTF-8编码方式的数据文件

司法

步骤二:添加自定义标签

说明

司法裁判文书内置10+个无需标注的实体标签,模型训练的数据标注成本低至原本的50%以下。

选择本次标注需要优化的预置字段,并逐个添加需要标注的自定义标签字段名;image.png

步骤三:标注数据

标注

2.2 上传数据集

由于模型需要通过标注数据来从中学习规律,因此我们首先要准备好一个标注数据集。

对于用户已经积累了一部分标注数据的情况,我们需要您按照自学习平台所支持的输入格式进行组织,并且上传。

自行上传的标注数据为JSON格式,且需要符合以下格式,其中文本的内容放在“content”中,而标签的内容放在“records”中,records 中key 为实体名,value 为标注内容在原文中的偏移量。

{
    "id_0001": { // 这是该文档在您数据集里的唯一标示
        "content": "2021年9月4日15时许,被告人刘*立醉酒后驾驶一辆牌照号为浙b**208的小型汽车,行驶至本区大碶街道坝头路与镇大路交叉口附近路段时,与被害人韩*红驾驶的小型轿车发生刮擦,造成车辆受损的交通事故。后经宁波市公安局北仑分局交通**大队认定,被告人刘*立承担此次事故的全部责任。宁波市公安局北仑分局交通**大队民警到场处理交通事1故时发现被告人刘*立有酒后驾车嫌疑,处警民警遂对刘*立进行现场检测。经检测,被告人刘*立呼气酒精含量为212mg/100m1,后经血样检测,其血样乙醇浓度为219mg/100m1。案发后,被告人刘*立与韩*红就民事赔偿问题达成协议,并已实际履行。",
        "records": {
            "作案地点": [{
                "span": "解放街上由东往西方向行驶",
                "offset": [ //标注字段真实字节的偏移量,首字节的偏移量为0。
                    127,
                    139
                ]
            }],
            "呼气式血液酒精含量": [{
                "span": "106mg/100ml",
                "offset": [
                    212,
                    223
                ]
            },
            }]
        }
    }
}

三、创建模型

在“模型中心”单击“创建模型”;

创建模型2

查看模型详情,单击模型右侧“查看”按钮查看模型详情。查看

模型详情页模型详情页

模型测试

模型训练完成后,可对训练好的模型进行线上测试模型效果;模型测试

平台模型测试

基于平台已训练好的模型进行文本测试,可以针对需要提升的标签准确率进行单独训练;平台模型测试