Обработка текста методами естественного языка
Ключевые слова:
обработка естественного языка, машинное обучение, токенизация, искусственный интеллект, нейронные сетиАннотация
В работе рассматриваются методы обработки текста с использованием естественного языка (NLP), которые играют ключевую роль в современном мире информационных технологий. Статья охватывает основные концепции и техники NLP, такие как токенизация, стемминг, лемматизация, удаление стоп-слов, использование регулярных выражений, а также методы представления текста, включая Bag of Words и TF-IDF. Особое внимание уделено анализу тональности, машинному переводу, автоматическому резюмированию и чат-ботам, которые являются важными направлениями в области NLP.
Библиографические ссылки
Обработка естественного языка – [Электронный ресурс] / Интернет-ресурс. - Режим доступа: https://neerc.ifmo.ru/wiki/index.php?title=Обработка_естественного_языка - Загл. с экрана
Правильный NLP: как работают и что умеют системы обработки естественного языка – [Электронный ресурс] / Интернет-ресурс. - Режим доступа: https://tproger.ru/articles/natural-language-processing/ - Загл. с экрана
Jurafsky, D., & Martin, J. H.. Speech and Language Processing (3rd ed.). - Pearson, 2021.
Thomas Landauer, Peter W. Foltz, & Darrell Laham. Introduction to Latent Semantic Analysis (англ.) // Discourse Processes (англ.) русск.: journal. – 1998. – Vol. 25. – Pp. 259–284. – DOI: 10.1080/01638539809545028.
Pennington, J., Socher, R., & Manning, C. D. Glove: Global Vectors for Word Representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). – РР. 1532-1543.
Mark Needham. Scikit-learn: TF/IDF and cosine similarity for computer science papers. – 2017. – [Электронный ресурс] / Интернет-ресурс. - Режим доступа: https://markhneedham.com/blog/2016/07/27/scitkit-learn-tfidf-and-cosine-similarity-for-computer-science-papers/ - Загл. с экрана
Pang, B., & Lee, L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval, 2008. – Т. 2(1-2). – Р. 1-135.
Koehn, P. Statistical Machine Translation // Cambridge University Press, 2010.