
Лига Сисадминов
Про подготовку к проведению работ (сисадминское)
Я вообще всю неделю писала пост не про это, но вчера посмотрела митап от селектела и что-то вдохновилась, тема отозвалась живой болью.
Казалось бы, банальность, но я её озвучу: к работам, затрагивающим критическую инфраструктуру компании, нужно готовиться. План работ поможет вам не тупить в экстренной ситуации, а так же правильно рассчитать время и прикинуть риски.
Риски, которые по неопытности можно пропустить:
Что будет, если на твоём рабочем месте (или дома) отключится электричество? У тебя заряжен ноутбук? Он может работать от PowerBank?
Что будет, если у тебя отключится интернет/удалёнка? В выходные РКН любит тестировать отключение VPN, есть ли у тебя альтернатива? Твой телефон сможет раздать интернет?
Что будет если ты потеряешь доступ к оборудованию? Да-да, план нужен в том числе, чтобы доступ к оборудованию не потерять, но все мы люди, так всё же?
Ты знаешь как дозвониться инженеру в ЦОД? Ты являешься доверенным лицом? Возможно, у тебя спросят ИНН, номер договора и секретный код - они не на той шаре в том ЦОД, к которому ты потерял доступ? Ты знаешь, в каком юните и стойке там оборудование, твой netbox не там же где и номер договора? У тебя самого есть пропуск в ЦОД/офис/серверную, оформленный на даты работ? Охрана офиса в курсе? (например, у меня круглосуточный пропуск на работу, но охрана ночью запирает дверь и уходит спать - без дополнительного предупреждения не попадешь в здание).
Самые "опасные" работы лучше проводить на месте, однако работы могут казаться безопасными для проведения их удаленно, а случиться может что угодно. Как известно "удалённая правка ACL - к дальней дороге".
Опустим банальщину про то, что нужно сделать бэкапы до начала работ и проверить их корректность.
Что надо иметь в виду помимо "что если":
Контрольное время: если до контрольного времени не заработало или не дошли до пункта Х, то откатываемся. И да, конечно же, план отката. Чаще всего, в вашем распоряжении не всё время мира, а "слот с 20 до 00, потому что дальше проснётся Камчатка". Даже если у вас на работы все выходные, нужно понимать контрольную точку отката, так как если вы поймёте в 7 утра понедельника, что работать это не будет - может стать довольно неприятно, когда компания начнет рабочий день. Точка отката у меня обычно находится примерно на 2/3 отведенного времени, конкретно зависит от вашего плана восстановления. Вы должны успеть вернуть инфраструктуру в рабочее состояние к концу отведенного слота.
Точка невозврата. Бывает такое, что какой-то этап нельзя прервать (обновление BIOS, например) или после какого-то этапа откатить результат нет возможности (например, обновление прошивки, которая не даунгрейдится). В этом случае нужно прикинуть самые плохие варианты - не прошилось, всё, потеряно оборудование, восстановление или очень долгое или невозможно в текущих условиях - стоит прикинуть альтернативы, чтобы не впасть в панику. Или наоборот, вы успешно прошли точку невозврата - прошилось, но теперь только вперёд, это тот единственный случай, когда нужно настраивать до победного.
Критерии того, что работы прошли успешно. У вас должен быть чек-лист (пример будет ниже). Помните, если вам кажется, что всё работает - это не значит, что всё и правда работает.Подумайте также о соответсвующих доступах для проверки сервисов (пусть вам наделают клиентских учеток или для проверки выйдет компетентный пользователь)
Что могут затронуть ваши работы - лучше оповестить всех причастных. Например, вы собираетесь колбасить сеть, а программисты вместе с инфраструктурой наметили переезд сервера СУБД и им критично гонять пару-тройку терабайт данных без перерыва именно в это же время. Или вы обновляете сервис А, но уже все давно забыли, что сервис J к нему цеплялся по API, которые изменятся при обновлении. Лучше оповестить непричастных, чем забыть такие вещи.
Из личных примеров: у меня было две попытки перенести сервер колл-центра в ЦОД (он работают круглосуточно).
В первой попытке перенос был неудачный, не заработали исходящие звонки, настроить их в разумное время я не смогла (на тестах ранее вроде работало, а вживую нет). Это помимо кучи более мелких проблем, типа потери интеграции с внутренним софтом. И мной было сказано "откатываем".
Второй перенос был одновременно с обновлением софта колл-центра. Учли, казалось бы, всё. Но вылезли непредвиденные проблемы (непредвиденно было, что нужный оплаченный сторонний специалист их решить не мог и пришлось экстренно разбираться мне). Планировался перерыв связи два раза по 15 минут, а был перерыв 6 часов в итоге (я заранее оповестила, что планируем 30 минут, но может быть до 8 часов). Мы были просто в минутах от часа Х и решении об откате, но прошли контрольную точку и я сказала, что всё, чек-лист по переносу работает, обновляем и жгём по полной. Ух, как я понервничала, но была готова откатить, несмотря на то, что вышло работать в выходной хуева гора связанного народа - от программеров до саппорта первой линии. У меня был план и я его придерживалась)
По поводу проверки результата - например, вы меняете сервер телефонии, минимальный чек-лист может выглядеть так:
Телефоны обычные грузятся, получают корректный ip, прошивку на русском языке, высвечивается номер и фамилия
Телефоны ТОПов делают всё, что обычный + грузятся доп панели
Транки с провайдерами подняты
Работают входящие звонки: играет IVR, при наборе внутреннего номера звонит нужный телефон, при отсутствии набора звонит группа секретарей. При подъеме трубки слышно обоих собеседников в обе стороны. При ожидании играется музыка.
Работают исходящие: на местный городской, мобильный и междугородний номера. Слышимость также в обе стороны.
При исходящем на мобильный мы видим корректный АОН, который светится на мобильном. АОН соответствует ожиданиям (с конкретных номеров нужный АОН, из Воронежа виден Воронежский номер и т.д.).
Работают внутренние звонки по короткому номеру, высвечивается фамилия абонента
Работает перевод звонка, удержание
Работает индикация на доп-панелях и вызов с них
Производится запись разговора, файл в корректном формате на сервере, прослушивается
Производится запись в лог на сервере, записи похожи на правду
Конечно, этим мы не проверим ВСЕ функции и фичи. Но данных маркеров достаточно, чтобы понять, что более-менее работа организации не встанет колом в начале рабочего дня, клиенты дозвонятся и всё вот это.
Что в итоге? Во взрослых конторах обычно есть регламент внесения изменений в критическую инфраструктуру, который всё это старается учесть. Что не избавляет их от периодических факапов.
Всё предусмотреть невозможно, но здраво прописанный план Б, В и Г сбережет вам много нервных клеток. Не надо бояться откатить всё и сказать "не в этот раз". Ваш героизм "я точно добью к утру понедельника", "надо докатить раз начали", "зря я что ли в ночь вышел" никому не нужен и опасен тем, что вы не добьёте, не успеете и пострадает бизнес.
А ещё я перешла на сторону зла и завела тележку, ссылка в профиле. Там пока нихрена нет, но я хочу попробовать формат коротких постов, отличных от моего формата на пикабу.
Жизнь у розетки
Когда-то была сильная зависимость. Я был на постоянной подзарядке.
Смарт.
Планшет.
Ноут.
Часы.
Сигарета.
Зубная щетка.
Триммер.
Кружка.
Перчатки.
Стало.
Смарт только на работе. Стационарной на шнурке. С собой древняя нокия. Если нужна коммуникация дома - ип тел через рабочий гейт по громкой. Управляйка голосом.
Ноута и планшета нет. Пишу с телевизора.
Трубка, но редко уже.
обычная дешевая щетка из пятерки.
Ножницы, расчёска и опасная бритва
керамическая Кружка и термос.
Варежки.
Совсем без ээ нельзя, но от постоянной необходимости что там заряжать - отказался.
Хотят ли голландцы быть мировым сервером?
Спойлер: не очень и не все.
Работа
А системным администраторам и показать нечего толком. Если только снимки ИБП, серверных помещений, пинги из командной строки и прочее.
Но именно мы делаем то, чтобы у вас работали компьютеры, принтеры, интернет, связь, телефония и всё с этим связанное.
[Решено] Постоянная проверка на ошибки после перезагрузки
Здравствуйте! Имеется на компьютере 2 ссд, две системы 7 и 11. после работы в 11 выключаю комп или перезагружаю, потом при загрузке 7 начинается проверка всех разделов этих 2х ссд. Если я пропускаю эту проверку, то потом уже и при загрузке 11 также проверка. в 7 mb, в 11 gpt. В чем может быть проблема?
Решение: #comment_276738810
Сколько кнопок было на вашем тамагочи: три или четыре?
Четыре — это на богатом, три — это на каноничном. В нашем тамагочи, конечно, три. Заходите в игру и вырастите очаровательную квокку.
Беда или даже бедец с ноутом
Ребят прошу помощи, принесли ноут, неделю как вылезла вот такая ошибка. Сразу скажу что связана с.net framework теперь собственно сама беда, перестановка дот нет и фиксы с офф сайта не помогают... Помимо этого винда криво настроена и не даёт нифига сделать из под админки... Браузер постоянно сбрасывается.... Как можно пофиксить не переставляя винду.... Хозяйка стонет что ноут используется в магазе и даже 3-4 часа критичны... Может кто сталкивался? #it #мое