文档

数据预处理

更新时间:

对于文本数据而言,通常文本数据里面会含有很多跟任务无关的噪音,这时应该进行文本的预处理。

在NLP自学习平台内置了一些预处理规则,如果您觉得有必要进行预处理,可以选择这些规则。我们内置的规则包括:

  1. 去除 URL 链接;

  2. 去除 emoji 表情符号;

  3. 英文大写转小写;

  4. 中文繁体转简体。

可能平台目前没有您需要的预处理规则,暂时需要您自己在数据上传前进行处理,可以给我们反馈,我们会及时新增更多的预处理规则。

预处理的原则是去除掉对于判断类别无用的信息,也就是说,如果这个信息是有用的,则不应该去掉。比如 emoji 表情对于情感的判断是有帮助的,所以在情感分类中,不应该去除掉 emoji 表情。