实体抽取中什么是数据标注_自然语言处理(NLP)-阿里云帮助中心

除了通过JSON文件来创建数据集的方式，如果您暂时没有标注数据，也可以通过我们的标注平台来标注数据。

接下来，通过一个例子来演示标注平台的使用。在第一步创建刚刚创建好的项目中，选择创建标注任务

注意：目前仅支持UTF-8编码方式的数据文件

填写数据集的名称后，您需要上传待标注的原始数据文件。上传完成后点击下一步，进入实体名称的设置页面，点击添加实体，输入您需要抽取的实体的名称，如下：

多次点击“添加实体”按钮，直至所有需要抽取的实体都显示在右边栏，点击提交即可。待上传的数据集解析完毕后即可标注，之后按照页面提示进行数据的标注即可。

当构建好数据集后，模型就可以开始学习。需要知道的是模型所有的知识都来源于您输入的这个数据集，它不具备任何的先验知识。模型做出的所有判断都是依据从这个训练数据集中学到的知识，因此它不可能做出它认知外的判断。

常见的用户遇到的问题如：

我需要从一句话中抽出一个金额，于是我标注了500句包含这个金额的句子。但是我测试模型效果时可以使用一整篇文章吗？文章中有一句话包含待抽取的实体。
答：不可以。测试文本和训练文本需要保持一致，因此，测试时也要用一句话去测试。或者构造训练数据时也选用完整的文章。
我有一整段裁判文书，需要从某一句话推理得到审判结果，可以通过标出这些话抽取推理得到答案吗？
答：实体抽取目前支持的是内容较短的完整文本，并且不做推理。如果标注的内容是成多句或是成段的，建议您选择其它的项目/解决方案看看能否解决您的问题。
标注太累了，我需要抽取的文本有好几种格式，能不能只标一种，能不能先标几条测测效果？
答：标注的数据越多且越多样，模型的泛化性能就会越好,如果您希望模型具备好的性能，标注数据这一关是必不可少的。我们不建议标几条数据试试效果，因为极少的样本模型是学不到规律的，因此不会有好的效果。另外，如果您有多个类型的样本，建议您每个类型都标一些，而不是只标一个类型。这样也能提升模型的稳定性和准确率。