ИТ-инфраструктура обеспечивает связь между всеми процессами и подразделениями компании, поэтому грамотное управление этой системой — залог стабильной работы и конкурентоспособности бизнеса. Компания Amediateka столкнулась с рядом проблем во взаимодействии с подрядчиком, отвечающим за управление технической частью платформы. Длительные сроки выполнения работ, недостаточное качество, а также отсутствие обновлений инфраструктуры не устраивали клиента. Для компании было важно провести работу над ошибками. За решением этой задачи было решено обратиться в «EdgeЦентр», который предложил перейти на другую модель предоставления услуг — DevOps as a service. Подробностями команда проекта поделилась с Sostav.
Этапы управления технической инфраструктурой клиента
Наша компания стала новым подрядчиком Amediateka, и мы нашли решение их проблем — DevOps as a service. Это модель предоставления услуг DevOps через облачного провайдера. Она позволяет компании не нанимать специалистов высокой квалификации, экономить на зарплате и снижает сопутствующие расходы. Прежде чем приступить к работе над проектом, наши специалисты разработали поэтапный план.
- Этап 1: мониторинг и аудит ИТ-инфраструктуры. На первом этапе специалисты изучают всю ИТ-систему заказчика, включая серверы и сети, выявляют проблемы и уязвимости.
- Этап 2: повышение надежности и отказоустойчивости платформы. На следующем этапе внедряются механизмы резервирования и автоматического восстановления, что снижает риск простоев и обеспечивает устойчивость системы к сбоям, повышая общую доступность платформы.
- Этап 3: обновления и автоматизация процессов. Затем проводится обновление ПО до последних версий и автоматизируются рутинные операции, освобождая команду для более важных проектов.
- Этап 4: интеграция с разработкой и настройка CI/CD. Далее настраивается эффективная система CI/CD для автоматизации тестирования и развертывания приложений, улучшается взаимодействие между сервисами и оптимизируется производительность системы.
- Этап 5: создание гибких и масштабируемых систем. И на заключительном этапе разрабатывается архитектура с устойчивыми микросервисами, предотвращаются узкие места, создается документация и рекомендации для поддержки системы заказчиком.
Проблемы и решения
В ходе работы над проектом было обнаружено несколько серьезных проблем в инфраструктуре клиента, которые потребовали немедленного вмешательства.
Отсутствие кластеров гипервизоров
Физические серверы работали независимо друг от друга, и выход одного из них из строя мог привести к длительным перебоям в работе сразу нескольких виртуальных машин. Чтобы решить эту проблему, мы создали отказоустойчивый кластер на основе OpenStack с использованием сетевого хранилища Ceph. Все виртуальные машины были перемещены в этот кластер, что позволило минимизировать риск потери данных и времени при сбоях.
Проблемы с сетевыми взаимодействиями
Некорректные маршруты и перегрузка каналов сети негативно влияли на общую производительность системы. Мы провели реструктуризацию сетевых маршрутов и внесли корректировки в конфигурации сервисов, что помогло улучшить использование пропускной способности и повысить стабильность работы сети.
Устаревший кластер Kubernetes
Была обнаружена устаревшая версия кластера Kubernetes (версия 1.14), которая уже не соответствовала современным стандартам безопасности и функциональности. Мы развернули новый кластер и организовали миграцию, что обеспечило актуальность используемых технологий и повысило безопасность.
Один балансировщик нагрузки Nginx на физическом сервере
Балансировка трафика выполнялась одним физическим сервером с установленным Nginx, который не имел резерва на случай технического обслуживания или поломки. Для повышения отказоустойчивости мы ввели в строй два новых виртуальных сервера с Nginx, что позволило распределять нагрузку и избежать возможных простоев при обслуживании основного узла.
Павел Логинов, руководитель отдела оперирования EdgeЦентр:
Нам было интересно работать с поставленной задачей. Мы нашли ряд проблем в инфраструктуре клиента и помогли Amediateka существенно повысить ее надежность и устойчивость, а также улучшили ее готовность к будущим нагрузкам и изменениям.
Плодотворное сотрудничество и краткие итоги
Задачей команды «EdgeЦентр» было создать грамотную ИТ-инфраструктуру, которая оценивалась по трем ключевым показателям: время простоя, время ответа и процент успешных запросов. Результатом остались довольны и заказчик, и исполнитель.
За несколько лет сотрудничества нашей команды с Amediateka нам удалось переработать сетевую архитектуру компании, добиться результатов в повышении стабильности и эффективности работы платформы. Время доступности сервиса составило 99,5%, суммарный простой составил менее двух дней за весь период. Благодаря проведенным работам по модернизации критической инфраструктуры в будущем планируется дальнейшее увеличение показателя Service Level Indicator (SLI), причем последующие обновления будут проводиться без остановки работы платформы.
Помимо улучшения доступности, повысилась и производительность системы. Трафик в сети сократился в четыре раза, среднее время загрузки контента уменьшилось с двух секунд до 0,2, а скорость передачи данных увеличилась с 1 до 10 Гбит/с. Среднее время отклика на запросы составляет теперь примерно 1,5 секунды, при этом процент успешных запросов достиг отметки в 99,9%.