Формирование датасета для решения задач машинного обучения
Ключевые слова:
датасет, машинное обучение, NLP, токенизация, лемматизацияАннотация
Статья посвящена описанию основных этапов формирования корпуса данных для машинного обучения, а также методов предобработки текстов. Приведены варианты решения таких проблем, как неполнота данных, очистка и преобразование данных. Выполнено кодирование категориальных данных. С помощью методов предобработки NLP подготовлен набор данных, который будет в дальнейшем использован при векторизации и решении задачи классификации методами машинного обучения.
Библиографические ссылки
Глазкова, А.В. Формирование текстового корпуса для автоматического извлечения биографических фактов из русскоязычного текста // International Journal of Open Information Technologies. 2019. №1. URL: https://cyberleninka.ru/article/n/formirovanie-tekstovogo-korpusa-dlya-avtomaticheskogo-izvlecheniya-biograficheskih-faktov-iz-russkoyazychnogo-teksta (дата обращения: 10.04.2023).
Вовченко, В. О. Структурно-функциональная модель процесса анализа рекламаций / В. О. Вовченко, В. А. Светличная // Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ-2022) : Материалы XIII Международной научно-технической конференции в рамках VIII Международного Научного форума Донецкой Народной Республики, Донецк, 25–26 мая 2022 года. – Донецк: Донецкий национальный технический университет, 2022. – С. 202-207.
Андриевская, Н. К. Онтологический подход в системах обработки данных научных и научно-образовательных организаций //Проблемы искусственного интеллекта. – 2020. – №. 1. – С. 23-36.
Датасеты для машинного обучения и анализа данных: что это, виды - где взять датасеты (yandex.ru). URL: https://practicum.yandex.ru/blog/dataset-dlya-mashinnogo-obucheniya-i-analiza/ (дата обращения: 10.04.2023).
What is One Hot Encoding? Why And When do you have to use it? [Электронный ресурс]/2019 г. — Режим доступа: https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f
ML | Label Encoding of datasets in Python [Электронный ресурс]/2019 г. — Режим доступа: https://www. geeksforgeeks.org/ml-label-encoding-of-datasets-in-python/
Главная страница Python-School. [Электронный ресурс] –– URL: https://python-school.ru/nlp-vectorization-methods/ (Дата обращения: 18.03.2023).