Реализация проекта машинного обучения от A до Я на примере приложения для обобщения текста
Шрифт:
Установка всех необходимых библиотек и пакетов, проверка доступности графического процессора для ускоренных вычислений.
Загрузка данных:
Импорт предоставленных заказчиком данных и их предварительная обработка.
Выбор и загрузка модели:
Выбрана модель PEGASUS из библиотеки Hugging Face's Transformers для задачи обобщения.
Дообучение модели:
Используя предоставленные заказчиком данные, произведено дообучение модели для лучшей адаптации к специфике
Оценка качества:
Проведена валидация и оценка качества модели на отложенной выборке.
Демонстрация работы:
Представлены примеры обобщения различных текстов с использованием обученной модели.
Этот Jupyter Notebook служит как детальное руководство по реализации решения, так и демонстрацией его эффективности.
Приложение №1 Прототип по обобщению текста в формате Jupyter Notebook
Пошаговая инструкция по запуску в реализацию проекта
По итогам предоставления прототипа заказчиком принято решение о запуске данного решения в продакшен.
Это открывает новый этап работы для исполнителя.
Модульное кодирование:
Необходимо структурировать код из Jupyter Notebook, разделив его на модули и функции, что облегчит последующую интеграцию, тестирование и поддержку решения.
Создание Web-API интерфейса:
Разработка пользовательского интерфейса, который позволит конечным пользователям легко и удобно использовать решение для обобщения текстов.
Контейнеризация:
Все компоненты решения, включая зависимости, модель и интерфейс, необходимо упаковать в Docker-контейнер. Это обеспечит портативность, масштабируемость и надежность при развертывании решения.
Разворачивание контейнера на облачной инфраструктуре заказчика:
После тестирования и упаковки решения в Docker-контейнер, оно должно быть развернуто на облачной инфраструктуре заказчика, обеспечив тем самым доступность для конечных пользователей.
Эти этапы являются ключевыми для успешного перехода от прототипа к полноценному продакшен-решению, способному обслуживать множество пользователей и интегрироваться с другими системами заказчика.
Шаг 1. Подготовка проекта
Подготовка проекта включает в себя ряд действий, направленных на настройку инфраструктуры и кода для обеспечения качественной и надежной разработки. Это важный этап в жизненном цикле проекта, который помогает избежать ошибок и сложностей на последующих этапах.
Все необходимые шаги, которые необходимо выполнить перед тем как приступить к модульному кодированию проекта, подробно со скриншотами кода, представлены в следующих разделах.
Настройка и клонирование репозитория GitHub на ПК
Первым делом в разработке любого проекта должно стать создание его «дома» – репозитория
Мы задаем имя репозитория, совпадающее с названием нашего будущего проекта. Это поможет коллегам сразу понять его суть и назначение. Далее определяемся с уровнем доступа – сделать репозиторий публичным или приватным.
Как только репозиторий создан, добавляем в него файл README.md – это своего рода «паспорт» проекта с описанием его функционала и инструкциями по запуску.
Также важный шаг – добавление .gitignore и указание там Python как языка разработки. Это позволит исключить лишние промежуточные файлы из репозитория.
Завершающим аккордом станет выбор лицензии. Для открытых проектов отлично подходит лаконичная и ненавязчивая MIT – она позволит любому использовать код, указав авторство разработчиков.
Теперь у нашего проекта есть дом с просторными кодовыми хранилищами, настроен охранник в лице .gitignore и определены правила проживания благодаря выбранной лицензии.
Можно приступать к активной фазе – наполнению репозитория полезным кодом!
Получив доступ к репозиторию, созданному на GitHub, мы можем приступить к его клонированию – процессу создания полной локальной копии удаленного репозитория. Это позволит нам в дальнейшем работать с кодом на своем компьютере с последующей синхронизацией изменений обратно в удаленный репозиторий.
Для клонирования репозитория необходимо выполнить следующие действия:
Шаг1: перейти на страницу созданного репозитория на GitHub.
Шаг2: нажать на кнопку "Code", после чего скопировать предложенную ссылку в формате HTTPS. Эта ссылка указывает на расположение репозитория.
Шаг3: в директории на локальном компьютере, куда необходимо поместить клонируемый репозиторий, открыть окно терминала, набрав команду cmd в адресной строке.
Шаг4: выполнить команду git clone <ссылка>. Git использует указанную ссылку для скачивания всех файлов и данных репозитория.
После завершения клонирования в выбранной директории появится полная копия репозитория со всеми файлами и версиями на вашем диске.
Теперь репозиторий готов к использованию в локальной разработке. Все изменения можно будет синхронизировать обратно в удаленный репозиторий с помощью команд git push и git pull.