Creating a Dataset for Machine Learning
Keywords:
dataset, machine learning, NLP, tokenization, lemmatizationAbstract
Formation of a Dataset for Machine Learning Problems. The article describes the main stages of data set formation for machine learning, as well as methods of text preprocessing. Variants of solving such problems as data incompleteness, data cleaning and transformation are given. Categorical data coding is performed. With the help of NLP preprocessing methods, a data set is prepared which will be further used in vectorization and solving the problem of classification by machine learning methods.
References
Глазкова, А.В. Формирование текстового корпуса для автоматического извлечения биографических фактов из русскоязычного текста // International Journal of Open Information Technologies. 2019. №1. URL: https://cyberleninka.ru/article/n/formirovanie-tekstovogo-korpusa-dlya-avtomaticheskogo-izvlecheniya-biograficheskih-faktov-iz-russkoyazychnogo-teksta (дата обращения: 10.04.2023).
Вовченко, В. О. Структурно-функциональная модель процесса анализа рекламаций / В. О. Вовченко, В. А. Светличная // Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ-2022) : Материалы XIII Международной научно-технической конференции в рамках VIII Международного Научного форума Донецкой Народной Республики, Донецк, 25–26 мая 2022 года. – Донецк: Донецкий национальный технический университет, 2022. – С. 202-207.
Андриевская, Н. К. Онтологический подход в системах обработки данных научных и научно-образовательных организаций //Проблемы искусственного интеллекта. – 2020. – №. 1. – С. 23-36.
Датасеты для машинного обучения и анализа данных: что это, виды - где взять датасеты (yandex.ru). URL: https://practicum.yandex.ru/blog/dataset-dlya-mashinnogo-obucheniya-i-analiza/ (дата обращения: 10.04.2023).
What is One Hot Encoding? Why And When do you have to use it? [Электронный ресурс]/2019 г. — Режим доступа: https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f
ML | Label Encoding of datasets in Python [Электронный ресурс]/2019 г. — Режим доступа: https://www. geeksforgeeks.org/ml-label-encoding-of-datasets-in-python/
Главная страница Python-School. [Электронный ресурс] –– URL: https://python-school.ru/nlp-vectorization-methods/ (Дата обращения: 18.03.2023).