Сегодня днем сайт был недоступен.
Объясню причину - виртуальный сервер, на котором располагается наш сайт был перенесен недавно на новую структуру хранения данных в другой дата центр. Сегодня хостинг - провайдер проводил какие то технические работы и произошла авария, информация о которой не была сообщена пока. Как она появится, я обновлю тему. Собственно, объяснения: Разъяснения по аварии 10.06.2011 Как вы знаете, Clodo ведет работы по изменению структуры управления кластером. Учитывая весь печальный опыт, ведем мы их ночами и разбивая на атомарные недеструктивные действия. В ночь перед инцидентом наши инженеры производили работу по исключению из кластера одного из InfiniBand-свичей. С одной стороны, это действие было подвергнуто предварительному тестированию, с другой – по его завершении было еще раз проверено, что ничего не было нарушено. После этого никаких работ не производилось.
Однако, через весьма продолжительное время началось падение виртуальных машин. Проблема возникла из-за сбоя драйвера IP over Infiniband (IPoIB) в работе с Suse Linux Enterprise Server, установленном на наших XEN-нодах, контроллере кластера и на релеях. К сожалению, сбой был достаточно фатальным и виртуальные машины поднимались не автоматически, а вручную. Более того, в скрипты запуска пришлось вносить экстренные изменения, поэтому подъем виртуальных машин произошел не так быстро, как хотелось бы. У небольшой части (10-15) виртуальных машин в результате сбоя пропала связь между виртуальной машиной и диском. Работоспособность этих машин пришлось восстанавливать дольше. Сбой произошел по нашей вине. Основные ее составляющие: недостаточное тестирование перед проведением операции (не были исключены отложенные по времени ошибки); не до конца протестированное взаимодействие Suse Linux Enterprise Server и Infiniband; недоработанные на случай аварии такого рода скрипты запуска. Все эти ошибки являются следствием человеческого фактора.
Виновные отстранены от осуществления любых действий
Комментарии 1