NLP自学习平台的文本数据预处理规则与原则-自然语言处理-阿里云

对于文本数据而言，通常文本数据里面会含有很多跟任务无关的噪音，这时应该进行文本的预处理。

在NLP自学习平台内置了一些预处理规则，如果您觉得有必要进行预处理，可以选择这些规则。我们内置的规则包括：

可能平台目前没有您需要的预处理规则，暂时需要您自己在数据上传前进行处理，可以给我们反馈，我们会及时新增更多的预处理规则。

预处理的原则是去除掉对于判断类别无用的信息，也就是说，如果这个信息是有用的，则不应该去掉。比如 emoji 表情对于情感的判断是有帮助的，所以在情感分类中，不应该去除掉 emoji 表情。