Creating a Dataset for Machine Learning

Authors

  • V. О. Vovchenko Donetsk National Technical University
  • V. A. Svetlichnaya Donetsk National Technical University
  • N. K. Andrievskaya Donetsk National Technical University

Keywords:

dataset, machine learning, NLP, tokenization, lemmatization

Abstract

Formation of a Dataset for Machine Learning Problems. The article describes the main stages of data set formation for machine learning, as well as methods of text preprocessing. Variants of solving such problems as data incompleteness, data cleaning and transformation are given. Categorical data coding is performed. With the help of NLP preprocessing methods, a data set is prepared which will be further used in vectorization and solving the problem of classification by machine learning methods.

References

Глазкова, А.В. Формирование текстового корпуса для автоматического извлечения биографических фактов из русскоязычного текста // International Journal of Open Information Technologies. 2019. №1. URL: https://cyberleninka.ru/article/n/formirovanie-tekstovogo-korpusa-dlya-avtomaticheskogo-izvlecheniya-biograficheskih-faktov-iz-russkoyazychnogo-teksta (дата обращения: 10.04.2023).

Вовченко, В. О. Структурно-функциональная модель процесса анализа рекламаций / В. О. Вовченко, В. А. Светличная // Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ-2022) : Материалы XIII Международной научно-технической конференции в рамках VIII Международного Научного форума Донецкой Народной Республики, Донецк, 25–26 мая 2022 года. – Донецк: Донецкий национальный технический университет, 2022. – С. 202-207.

Андриевская, Н. К. Онтологический подход в системах обработки данных научных и научно-образовательных организаций //Проблемы искусственного интеллекта. – 2020. – №. 1. – С. 23-36.

Датасеты для машинного обучения и анализа данных: что это, виды - где взять датасеты (yandex.ru). URL: https://practicum.yandex.ru/blog/dataset-dlya-mashinnogo-obucheniya-i-analiza/ (дата обращения: 10.04.2023).

What is One Hot Encoding? Why And When do you have to use it? [Электронный ресурс]/2019 г. — Режим доступа: https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f

ML | Label Encoding of datasets in Python [Электронный ресурс]/2019 г. — Режим доступа: https://www. geeksforgeeks.org/ml-label-encoding-of-datasets-in-python/

Главная страница Python-School. [Электронный ресурс] –– URL: https://python-school.ru/nlp-vectorization-methods/ (Дата обращения: 18.03.2023).

Published

2023-06-23

How to Cite

Vovchenko В. О., Svetlichnaya В. А., & Andrievskaya Н. К. (2023). Creating a Dataset for Machine Learning. Informatics and Cybernetics, (2(32), 5–12. Retrieved from https://ojs.donntu.ru/index.php/infcyb/article/view/94

Issue

Section

Информатика и вычислительная техника