Sostav.ru

Грамотное делегирование: DevOps as a Service для оптимизации работы ИТ-инфраструктуры

Причины сбоев в стабильной работе компании и пути их решения

ИТ-инфраструктура обеспечивает связь между всеми процессами и подразделениями компании, поэтому грамотное управление этой системой — залог стабильной работы и конкурентоспособности бизнеса. Компания Amediateka столкнулась с рядом проблем во взаимодействии с подрядчиком, отвечающим за управление технической частью платформы. Длительные сроки выполнения работ, недостаточное качество, а также отсутствие обновлений инфраструктуры не устраивали клиента. Для компании было важно провести работу над ошибками. За решением этой задачи было решено обратиться в «EdgeЦентр», который предложил перейти на другую модель предоставления услуг — DevOps as a service. Подробностями команда проекта поделилась с Sostav.

Этапы управления технической инфраструктурой клиента

Наша компания стала новым подрядчиком Amediateka, и мы нашли решение их проблем — DevOps as a service. Это модель предоставления услуг DevOps через облачного провайдера. Она позволяет компании не нанимать специалистов высокой квалификации, экономить на зарплате и снижает сопутствующие расходы. Прежде чем приступить к работе над проектом, наши специалисты разработали поэтапный план.

  • Этап 1: мониторинг и аудит ИТ-инфраструктуры. На первом этапе специалисты изучают всю ИТ-систему заказчика, включая серверы и сети, выявляют проблемы и уязвимости.
  • Этап 2: повышение надежности и отказоустойчивости платформы. На следующем этапе внедряются механизмы резервирования и автоматического восстановления, что снижает риск простоев и обеспечивает устойчивость системы к сбоям, повышая общую доступность платформы.
  • Этап 3: обновления и автоматизация процессов. Затем проводится обновление ПО до последних версий и автоматизируются рутинные операции, освобождая команду для более важных проектов.
  • Этап 4: интеграция с разработкой и настройка CI/CD. Далее настраивается эффективная система CI/CD для автоматизации тестирования и развертывания приложений, улучшается взаимодействие между сервисами и оптимизируется производительность системы.
  • Этап 5: создание гибких и масштабируемых систем. И на заключительном этапе разрабатывается архитектура с устойчивыми микросервисами, предотвращаются узкие места, создается документация и рекомендации для поддержки системы заказчиком.

Проблемы и решения

В ходе работы над проектом было обнаружено несколько серьезных проблем в инфраструктуре клиента, которые потребовали немедленного вмешательства.

Отсутствие кластеров гипервизоров

Физические серверы работали независимо друг от друга, и выход одного из них из строя мог привести к длительным перебоям в работе сразу нескольких виртуальных машин. Чтобы решить эту проблему, мы создали отказоустойчивый кластер на основе OpenStack с использованием сетевого хранилища Ceph. Все виртуальные машины были перемещены в этот кластер, что позволило минимизировать риск потери данных и времени при сбоях.

Проблемы с сетевыми взаимодействиями

Некорректные маршруты и перегрузка каналов сети негативно влияли на общую производительность системы. Мы провели реструктуризацию сетевых маршрутов и внесли корректировки в конфигурации сервисов, что помогло улучшить использование пропускной способности и повысить стабильность работы сети.

Устаревший кластер Kubernetes

Была обнаружена устаревшая версия кластера Kubernetes (версия 1.14), которая уже не соответствовала современным стандартам безопасности и функциональности. Мы развернули новый кластер и организовали миграцию, что обеспечило актуальность используемых технологий и повысило безопасность.

Один балансировщик нагрузки Nginx на физическом сервере

Балансировка трафика выполнялась одним физическим сервером с установленным Nginx, который не имел резерва на случай технического обслуживания или поломки. Для повышения отказоустойчивости мы ввели в строй два новых виртуальных сервера с Nginx, что позволило распределять нагрузку и избежать возможных простоев при обслуживании основного узла.

Павел Логинов, руководитель отдела оперирования EdgeЦентр:

Нам было интересно работать с поставленной задачей. Мы нашли ряд проблем в инфраструктуре клиента и помогли Amediateka существенно повысить ее надежность и устойчивость, а также улучшили ее готовность к будущим нагрузкам и изменениям.

Плодотворное сотрудничество и краткие итоги

Задачей команды «EdgeЦентр» было создать грамотную ИТ-инфраструктуру, которая оценивалась по трем ключевым показателям: время простоя, время ответа и процент успешных запросов. Результатом остались довольны и заказчик, и исполнитель.

За несколько лет сотрудничества нашей команды с Amediateka нам удалось переработать сетевую архитектуру компании, добиться результатов в повышении стабильности и эффективности работы платформы. Время доступности сервиса составило 99,5%, суммарный простой составил менее двух дней за весь период. Благодаря проведенным работам по модернизации критической инфраструктуры в будущем планируется дальнейшее увеличение показателя Service Level Indicator (SLI), причем последующие обновления будут проводиться без остановки работы платформы.

Помимо улучшения доступности, повысилась и производительность системы. Трафик в сети сократился в четыре раза, среднее время загрузки контента уменьшилось с двух секунд до 0,2, а скорость передачи данных увеличилась с 1 до 10 Гбит/с. Среднее время отклика на запросы составляет теперь примерно 1,5 секунды, при этом процент успешных запросов достиг отметки в 99,9%.

Обсудить с другими читателями:
Ваш браузер устарел
На сайте Sostav.ru используются технологии, которые не доступны в вашем браузере, в связи с чем страница может отображаться некорректно.
Чтобы страница отображалась корректно, обновите ваш браузер.