Исследование влияния предобработки текста на качество тематической классификации.

Д.Ю. Подзол; И.А. Коломойцева

Авторы

Д.Ю. Подзол Донецкий национальный технический университет
И.А. Коломойцева Донецкий национальный технический университет

Ключевые слова:

тематическая классификация, предобработка текста, машинное обучение, нейросетевые модели, RuBERT

Аннотация

В работе исследуется влияние различных стратегий предобработки текста на качество тематической классификации русскоязычных документов. Сравниваются модели SVM, LSTM и RuBERT при использовании трех уровней очистки данных. Показано, что умеренная предобработка повышает точность классических и рекуррентных моделей, тогда как чрезмерная фильтрация снижает качество трансформерных архитектур. На основе результатов предложена адаптивная стратегия предобработки, учитывающая особенности каждой модели.

Библиографические ссылки

Vaswani, A. Attention Is All You Need / A. Vaswani, N. Shazeer, N. Parmar [и др.] // Advances in Neural Information Processing Systems. – 2017. – DOI: 10.48550/arXiv.1706.03762.

Devlin, J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin, M.-W. Chang, K. Lee, K. Toutanova // NAACL-HLT. – 2019. – DOI: 10.18653/v1/N19-1423.

Mikolov, T. Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean. – arXiv preprint, 2013. – DOI: 10.48550/arXiv.1301.3781.

Kuratov, Y. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language (RuBERT) / Y. Kuratov, M. Arkhipov. – arXiv preprint, 2019. – DOI: 10.48550/arXiv.1905.07213.

Стрелец, А. И. Методы классификации текстовых данных по темам / А. И. Стрелец, В. С. Иванников, А. А. Орлов, А. В. Атавина // Международный журнал гуманитарных и естественных наук. – 2019. – № 6(1). – С. 74–76. – DOI: 10.24411/2500-1000-2019-11252.

Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. Enriching Word Vectors with Subword Information. arXiv preprint, 2017. (FastText).

Zharkov, D., & Korobov, M. pymorphy2: Open-source morphological analyzer for Russian and Ukrainian. (Описание инструмента pymorphy2).

Kudo, T., & Richardson, J. SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. arXiv preprint, 2018.

Ribeiro, M. T., Singh, S., & Guestrin, C. "Why Should I Trust You?": Explaining the Predictions of Any Classifier. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016. (LIME)

Lundberg, S. M., & Lee, S.-I. A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems 30 (NIPS 2017). (SHAP)

Sennrich, R., Haddow, B., & Birch, A. Neural Machine Translation of Rare Words with Subword Units. Proceedings of ACL, 2016. (BPE / subword methods)

Исследование влияния предобработки текста на качество тематической классификации.

Авторы

Ключевые слова:

Аннотация

Библиографические ссылки

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

Наиболее читаемые статьи этого автора (авторов)

Язык

Информация