Предварительная подготовка данных в Python. Том 1-2КНИГИ » ПРОГРАММИНГ
Название: Предварительная подготовка данных в Python. Том 1-2 Автор: Артем Груздев Издательство: ДМК Пресс Год: 2023 Страниц: 818+816 Язык: русский Формат: pdf Размер: 121,4 MB
В двухтомнике представлены материалы по применению классических методов машинного обучения в различных промышленных задачах. Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab).
NumPy (произносится как нампай) – это один из основных пакетов для вычислений в Python. Он содержит функциональные возможности для работы с многомерными массивами и различными математическими функциями. Основа NumPy – это объект ndarray, n-мерный массив. В Python массив NumPy – это базовая структура данных. Библиотека scikit-learn, с помощью которой мы будем строить модели, требует, чтобы данные были записаны в виде массивов NumPy. Датафреймы pandas, с которыми мы познакомимся позднее, также будут внутренне преобразованы библиотекой scikit-learn в массивы NumPy. Массивы похожи на списки Python, за исключением того, что элементы массива должны иметь одинаковый тип данных, как float и int. С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее, чем со списками.
Pandas – одна из самых популярных библиотек для исследования данных с открытым исходным кодом, доступных в настоящее время. Она дает своим пользователям возможность исследовать, манипулировать, запрашивать, агрегировать и визуализировать табличные данные. Табличные данные относятся к двумерным данным, состоящим из строк и столбцов. Обычно мы называем такую организованную структуру данных таблицей. pandas – это инструмент, который мы будем использовать для анализа данных почти в каждом разделе этой книги.
Matplotlib (произносится как матплотлиб) – это основная библиотека для построения научных графиков в Python. Она включает функции для создания визуализаций типа линейных диаграмм, круговых диаграмм, гистограмм, диаграмм разброса и т. д. Библиотека matplotlib имеет иерархическую структуру. Наиболее простыми для понимания являются высокоуровневые функции. Поэтому знакомство с библиотекой matplotlib обычно начинают с самого высокоуровневого интерфейса, предлагаемого модулем pyplot.
Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.
Список книг: 1) Предварительная подготовка данных в Python: Том 1. Инструменты и валидация 2) Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
Скачать Предварительная подготовка данных в Python. Том 1-2