Сообщество - Лига Сисадминов

Лига Сисадминов

2 236 постов 18 766 подписчиков

Популярные теги в сообществе:

212

Про подготовку к проведению работ (сисадминское)

Я вообще всю неделю писала пост не про это, но вчера посмотрела митап от селектела и что-то вдохновилась, тема отозвалась живой болью.

Казалось бы, банальность, но я её озвучу: к работам, затрагивающим критическую инфраструктуру компании, нужно готовиться. План работ поможет вам не тупить в экстренной ситуации, а так же правильно рассчитать время и прикинуть риски.

Риски, которые по неопытности можно пропустить:

  • Что будет, если на твоём рабочем месте (или дома) отключится электричество? У тебя заряжен ноутбук? Он может работать от PowerBank?

  • Что будет, если у тебя отключится интернет/удалёнка? В выходные РКН любит тестировать отключение VPN, есть ли у тебя альтернатива? Твой телефон сможет раздать интернет?

  • Что будет если ты потеряешь доступ к оборудованию? Да-да, план нужен в том числе, чтобы доступ к оборудованию не потерять, но все мы люди, так всё же?

    Ты знаешь как дозвониться инженеру в ЦОД? Ты являешься доверенным лицом? Возможно, у тебя спросят ИНН, номер договора и секретный код - они не на той шаре в том ЦОД, к которому ты потерял доступ? Ты знаешь, в каком юните и стойке там оборудование, твой netbox не там же где и номер договора? У тебя самого есть пропуск в ЦОД/офис/серверную, оформленный на даты работ? Охрана офиса в курсе? (например, у меня круглосуточный пропуск на работу, но охрана ночью запирает дверь и уходит спать - без дополнительного предупреждения не попадешь в здание).

    Самые "опасные" работы лучше проводить на месте, однако работы могут казаться безопасными для проведения их удаленно, а случиться может что угодно. Как известно "удалённая правка ACL - к дальней дороге".

Про подготовку к проведению работ (сисадминское) IT, Личный опыт, Факап, Системное администрирование, План, Мат, Длиннопост

Опустим банальщину про то, что нужно сделать бэкапы до начала работ и проверить их корректность.

Что надо иметь в виду помимо "что если":

  • Контрольное время: если до контрольного времени не заработало или не дошли до пункта Х, то откатываемся. И да, конечно же, план отката. Чаще всего, в вашем распоряжении не всё время мира, а "слот с 20 до 00, потому что дальше проснётся Камчатка". Даже если у вас на работы все выходные, нужно понимать контрольную точку отката, так как если вы поймёте в 7 утра понедельника, что работать это не будет - может стать довольно неприятно, когда компания начнет рабочий день. Точка отката у меня обычно находится примерно на 2/3 отведенного времени, конкретно зависит от вашего плана восстановления. Вы должны успеть вернуть инфраструктуру в рабочее состояние к концу отведенного слота.

  • Точка невозврата. Бывает такое, что какой-то этап нельзя прервать (обновление BIOS, например) или после какого-то этапа откатить результат нет возможности (например, обновление прошивки, которая не даунгрейдится). В этом случае нужно прикинуть самые плохие варианты - не прошилось, всё, потеряно оборудование, восстановление или очень долгое или невозможно в текущих условиях - стоит прикинуть альтернативы, чтобы не впасть в панику. Или наоборот, вы успешно прошли точку невозврата - прошилось, но теперь только вперёд, это тот единственный случай, когда нужно настраивать до победного.

  • Критерии того, что работы прошли успешно. У вас должен быть чек-лист (пример будет ниже). Помните, если вам кажется, что всё работает - это не значит, что всё и правда работает.Подумайте также о соответсвующих доступах для проверки сервисов (пусть вам наделают клиентских учеток или для проверки выйдет компетентный пользователь)

  • Что могут затронуть ваши работы - лучше оповестить всех причастных. Например, вы собираетесь колбасить сеть, а программисты вместе с инфраструктурой наметили переезд сервера СУБД и им критично гонять пару-тройку терабайт данных без перерыва именно в это же время. Или вы обновляете сервис А, но уже все давно забыли, что сервис J к нему цеплялся по API, которые изменятся при обновлении. Лучше оповестить непричастных, чем забыть такие вещи.

Из личных примеров: у меня было две попытки перенести сервер колл-центра в ЦОД (он работают круглосуточно).
В первой попытке перенос был неудачный, не заработали исходящие звонки, настроить их в разумное время я не смогла (на тестах ранее вроде работало, а вживую нет). Это помимо кучи более мелких проблем, типа потери интеграции с внутренним софтом. И мной было сказано "откатываем".
Второй перенос был одновременно с обновлением софта колл-центра. Учли, казалось бы, всё. Но вылезли непредвиденные проблемы (непредвиденно было, что нужный оплаченный сторонний специалист их решить не мог и пришлось экстренно разбираться мне). Планировался перерыв связи два раза по 15 минут, а был перерыв 6 часов в итоге (я заранее оповестила, что планируем 30 минут, но может быть до 8 часов). Мы были просто в минутах от часа Х и решении об откате, но прошли контрольную точку и я сказала, что всё, чек-лист по переносу работает, обновляем и жгём по полной. Ух, как я понервничала, но была готова откатить, несмотря на то, что вышло работать в выходной хуева гора связанного народа - от программеров до саппорта первой линии. У меня был план и я его придерживалась)

По поводу проверки результата - например, вы меняете сервер телефонии, минимальный чек-лист может выглядеть так:

  • Телефоны обычные грузятся, получают корректный ip, прошивку на русском языке, высвечивается номер и фамилия

  • Телефоны ТОПов делают всё, что обычный + грузятся доп панели

  • Транки с провайдерами подняты

  • Работают входящие звонки: играет IVR, при наборе внутреннего номера звонит нужный телефон, при отсутствии набора звонит группа секретарей. При подъеме трубки слышно обоих собеседников в обе стороны. При ожидании играется музыка.

  • Работают исходящие: на местный городской, мобильный и междугородний номера. Слышимость также в обе стороны.

  • При исходящем на мобильный мы видим корректный АОН, который светится на мобильном. АОН соответствует ожиданиям (с конкретных номеров нужный АОН, из Воронежа виден Воронежский номер и т.д.).

  • Работают внутренние звонки по короткому номеру, высвечивается фамилия абонента

  • Работает перевод звонка, удержание

  • Работает индикация на доп-панелях и вызов с них

  • Производится запись разговора, файл в корректном формате на сервере, прослушивается

  • Производится запись в лог на сервере, записи похожи на правду

Конечно, этим мы не проверим ВСЕ функции и фичи. Но данных маркеров достаточно, чтобы понять, что более-менее работа организации не встанет колом в начале рабочего дня, клиенты дозвонятся и всё вот это.

Что в итоге? Во взрослых конторах обычно есть регламент внесения изменений в критическую инфраструктуру, который всё это старается учесть. Что не избавляет их от периодических факапов.
Всё предусмотреть невозможно, но здраво прописанный план Б, В и Г сбережет вам много нервных клеток. Не надо бояться откатить всё и сказать "не в этот раз". Ваш героизм "я точно добью к утру понедельника", "надо докатить раз начали", "зря я что ли в ночь вышел" никому не нужен и опасен тем, что вы не добьёте, не успеете и пострадает бизнес.

А ещё я перешла на сторону зла и завела тележку, ссылка в профиле. Там пока нихрена нет, но я хочу попробовать формат коротких постов, отличных от моего формата на пикабу.

Показать полностью 1

Жизнь у розетки

Когда-то была сильная зависимость. Я был на постоянной подзарядке.
Смарт.
Планшет.
Ноут.
Часы.
Сигарета.
Зубная щетка.
Триммер.
Кружка.
Перчатки.

Стало.
Смарт только на работе. Стационарной на шнурке. С собой древняя нокия. Если нужна коммуникация дома - ип тел через рабочий гейт по громкой. Управляйка голосом.

Ноута и планшета нет. Пишу с телевизора.
Трубка, но редко уже.
обычная дешевая щетка из пятерки.
Ножницы, расчёска и опасная бритва
керамическая Кружка и термос.
Варежки.

Совсем без ээ нельзя, но от постоянной необходимости что там заряжать - отказался.

108

Работа

А системным администраторам и показать нечего толком. Если только снимки ИБП, серверных помещений, пинги из командной строки и прочее.

Но именно мы делаем то, чтобы у вас работали компьютеры, принтеры, интернет, связь, телефония и всё с этим связанное.

11

[Решено] Постоянная проверка на ошибки после перезагрузки

Здравствуйте! Имеется на компьютере 2 ссд, две системы 7 и 11. после работы в 11 выключаю комп или перезагружаю, потом при загрузке 7 начинается проверка всех разделов этих 2х ссд. Если я пропускаю эту проверку, то потом уже и при загрузке 11 также проверка. в 7 mb, в 11 gpt. В чем может быть проблема?

Решение: #comment_276738810

2

Беда или даже бедец с ноутом

Ребят прошу помощи, принесли ноут, неделю как вылезла вот такая ошибка. Сразу скажу что связана с.net framework теперь собственно сама беда, перестановка дот нет и фиксы с офф сайта не помогают... Помимо этого винда криво настроена и не даёт нифига сделать из под админки... Браузер постоянно сбрасывается.... Как можно пофиксить не переставляя винду.... Хозяйка стонет что ноут используется в магазе и даже 3-4 часа критичны... Может кто сталкивался? #it #мое

Беда или даже бедец с ноутом IT, Ноутбук, Компьютерная помощь, Скриншот
Отличная работа, все прочитано!