Обработка текста методами естественного языка

Авторы

Ключевые слова:

обработка естественного языка, машинное обучение, токенизация, искусственный интеллект, нейронные сети

Аннотация

В работе рассматриваются методы обработки текста с использованием естественного языка (NLP), которые играют ключевую роль в современном мире информационных технологий. Статья охватывает основные концепции и техники NLP, такие как токенизация, стемминг, лемматизация, удаление стоп-слов, использование регулярных выражений, а также методы представления текста, включая Bag of Words и TF-IDF. Особое внимание уделено анализу тональности, машинному переводу, автоматическому резюмированию и чат-ботам, которые являются важными направлениями в области NLP.

Биография автора

С. А. Зори, Донецкий национальный технический университет

Доктор технических наук, доцент, заведующий кафедрой программной инженерии им. Л. П. Фельдмана факультета интеллектуальных систем и программирования ФГБОУ ВО «Донецкий национальный технический университет».

Библиографические ссылки

Обработка естественного языка – [Электронный ресурс] / Интернет-ресурс. - Режим доступа: https://neerc.ifmo.ru/wiki/index.php?title=Обработка_естественного_языка - Загл. с экрана

Правильный NLP: как работают и что умеют системы обработки естественного языка – [Электронный ресурс] / Интернет-ресурс. - Режим доступа: https://tproger.ru/articles/natural-language-processing/ - Загл. с экрана

Jurafsky, D., & Martin, J. H.. Speech and Language Processing (3rd ed.). - Pearson, 2021.

Thomas Landauer, Peter W. Foltz, & Darrell Laham. Introduction to Latent Semantic Analysis (англ.) // Discourse Processes (англ.) русск.: journal. – 1998. – Vol. 25. – Pp. 259–284. – DOI: 10.1080/01638539809545028.

Pennington, J., Socher, R., & Manning, C. D. Glove: Global Vectors for Word Representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). – РР. 1532-1543.

Mark Needham. Scikit-learn: TF/IDF and cosine similarity for computer science papers. – 2017. – [Электронный ресурс] / Интернет-ресурс. - Режим доступа: https://markhneedham.com/blog/2016/07/27/scitkit-learn-tfidf-and-cosine-similarity-for-computer-science-papers/ - Загл. с экрана

Pang, B., & Lee, L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval, 2008. – Т. 2(1-2). – Р. 1-135.

Koehn, P. Statistical Machine Translation // Cambridge University Press, 2010.

Загрузки

Опубликован

14.01.2025

Как цитировать

Зори, С. А., & Рудак, Л. В. (2025). Обработка текста методами естественного языка. Информатика и кибернетика, (3(37), 39–44. извлечено от https://ojs.donntu.ru/index.php/infcyb/article/view/418

Выпуск

Раздел

Информатика и вычислительная техника