17

IBM Storwize V3700

Несколько раз мигнул свет и схд решила отдохнуть.

Визуально все хорошо, могу на ноды зайти (две канистры получается со своим вебом и морда управления), сейчас там мигает один винт на замену разве что, но чуйка подсказывает, что выпадение одного винта не должно вырубать доступ целиком к системе.

Связь идет по 4 (по 2 порта на ноду) fc - 1 и 3 порт идут на сервер1, 2 и 4 порт идут на сервер 2

IBM Storwize V3700 Схд, IBM, Компьютерная помощь, Длиннопост

Пишет, что хосты отключены

IBM Storwize V3700 Схд, IBM, Компьютерная помощь, Длиннопост

Пишет, что кэш поврежден

IBM Storwize V3700 Схд, IBM, Компьютерная помощь, Длиннопост

Хосты неактивны, индикация меняется в вебе когда сервер грузится например, видимо чего то опрашивает

IBM Storwize V3700 Схд, IBM, Компьютерная помощь, Длиннопост

Сами они активны

IBM Storwize V3700 Схд, IBM, Компьютерная помощь, Длиннопост

Вроде все хорошо

IBM Storwize V3700 Схд, IBM, Компьютерная помощь, Длиннопост

Из хороших новостей - у меня есть дамп настроек на начало месяца, я могу запустить восстановление системы из веба, но он восстанавливается с последних дампов, как ему подсунуть старый я так и не понял.

IBM Storwize V3700 Схд, IBM, Компьютерная помощь, Длиннопост

Там и сейчас дампы лежат, но как запустить нужный по дате я не пойму

получается, что на момент перезагрузки серверов все 4 fc (ну если ребутнуть 1, то соответственно 2 fc) отключаются, система не видит схд и не грузится

Возможно поможет загрузка старого дампа, возможно поможет удаление кеша

В общем хотелось бы оживить это все, но опыта маловато

Лига Сисадминов

2.2K постов18.8K подписчиков

Правила сообщества

Мы здесь рады любым постам связанным с рабочими буднями специалистов нашей сферы деятельности.

1
DELETED
Автор поста оценил этот комментарий

Ну рейд 0 изначально используется только в тех условиях, где данные не нужны и не важны, а нужно только пространство. Ну вот ты это и получил. Алгоритм разрушения такого тома, уверен, довольно простой. Я вижу что там были ошибки исключения дисков из рейда, думаю, этого вполне достаточно, чтобы рейд умер и уже не поднялся бы.

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

ну и второй том такой же

Иллюстрация к комментарию
Иллюстрация к комментарию
показать ответы
1
DELETED
Автор поста оценил этот комментарий

Да, только физически.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

ну я потыкал всякое и пришли к выводу, что проще списать и забить. спасибо за советы

1
DELETED
Автор поста оценил этот комментарий

Главное индикация на правой части точно такая же?
Для исключения влияния контроллеров на это все, я бы поочередно вытащил бы первой и потом вторую голову и посмотрел бы что именно показывает при этом в конфиге.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

такая же, физически вытащить ? веб не дает отключить, скрин выше был, хотя чо терять теперь, но как было раньше - дергаешь модуль - удаляешь данные о системе - статус кандидат -встраивается

показать ответы
1
DELETED
Автор поста оценил этот комментарий

По статусу "offline" документация пишет следующее.

The volume is offline and unavailable if both nodes in the I/O group are missing, or if none of the nodes in the I/O group that are present can access any synchronized copy of the volume. The volume can also be offline if the volume is the secondary of a Metro Mirror or Global Mirror relationship that is not synchronized. A thin-provisioned volume goes offline if a user attempts to write an amount of data that exceeds the available disk space.

Есть фотография того как подключено все сзади? Сдается мне что там нет полной отказоустойчивости и похоже раньше маршрут до дисков шел через контроллер, с которым сейчас какие-то проблемы.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

ну готовься к фотке из жопы, серверные шкафы ставили люди - мое почтение, туда трудно залезть

правая такая же, 1,3 fc на один сервер, ну и 2,4 fc на второй

Иллюстрация к комментарию
показать ответы
1
DELETED
Автор поста оценил этот комментарий

Разобрался в терминологии. Получается на каждый mdisk создается raid, а потом у тебя эти рейды объединены в логический диск. Такое себе конечно.
По тому что я вижу, кажется, что сломался второй контроллер. Но это не должно было мешать запуску массива. Это же подтверждает что есть ошибка связи PCI, это значит что нет связи между двумя контроллерами внутри.

Надо каким-то образом запустить массив, что показывает в действиях тут?

И кэш если он и сдох, то это повлияет на целостность данных, на состояние рейдов это не повлияет. Чтобы работать дальше и не потерять данные, нужно без кеша работать.

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

да я уже готов данные потерять, дампы есть, но меня жутко смущает вот эта связь между блоками, контроллер рейда сломался или сама эта хрень с fc? вот чего предлагает сделать

Иллюстрация к комментарию
показать ответы
0
Автор поста оценил этот комментарий

это не 7 дисков, это уже собранные.

там два корпуса. попробую картинок накидать (на английский как переключить я так и не понял)
закинул картинок, так может понятней будет


ну и второй том так же идет, но напрягать меня начинает последний скрин, мне кажется кеш накрылся как раз по этому и как его сбросить я не знаю, я уже готов тома все удалять и собирать по новой, но вот ошибка из последнего скрина меня очень напрягает и как бы все дело не повторилось

и если на правом блоке fc порты (два активны и настроены (хотя в хостах они неактивны, то на левом блоке они вообще неактивны и блок по ходу выпадает из системы

Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

вот при по пытке удалить левый блок

Иллюстрация к комментарию
1
DELETED
Автор поста оценил этот комментарий

У тебя 7 дисков на общую сумму в 12ТБ, и также создано 2 тома на общий размер 12ТБ. Так не может быть если 10 рейд, да и из нечетного количества дисков его не собрать. Возможно у тебя отвалилось половина дисков. Я смотрю на скрине у тебя полка расширения еще стоит. Она подключена и работает? Сколько реально дисков вставлено и должно работать? Ты говоришь что у тебя один диск под замену, я его на скринах вообще не вижу.

По скринам плохо понятно что к чему относится. Было бы неплохо их увидеть на английском языке и с полной информации в окнах. И следовать от логических томов до физических дисков. А то у тебя скрины с выдернутыми таблицами, а к чему они относятся непонятно.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

это не 7 дисков, это уже собранные.

там два корпуса. попробую картинок накидать (на английский как переключить я так и не понял)
закинул картинок, так может понятней будет


ну и второй том так же идет, но напрягать меня начинает последний скрин, мне кажется кеш накрылся как раз по этому и как его сбросить я не знаю, я уже готов тома все удалять и собирать по новой, но вот ошибка из последнего скрина меня очень напрягает и как бы все дело не повторилось

и если на правом блоке fc порты (два активны и настроены (хотя в хостах они неактивны, то на левом блоке они вообще неактивны и блок по ходу выпадает из системы

Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
показать ответы
0
Автор поста оценил этот комментарий

новая прелесть выползла, к схд вообще ничего не подключено сейчас

Иллюстрация к комментарию
1
Автор поста оценил этот комментарий

Так RAID0 разваливается при отвале любого из дисков…

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

ошибся, рейд10 там должен стоять


UPD нашел, 10 рейд

1
DELETED
Автор поста оценил этот комментарий

Диски sata или sas?

Если я правильно посчитал, у тебя raid 0 без контроля четности. Это так?

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

сас, рейд 0 должен быть, это настраивалось лет 10 назад, многих деталей мне не известно

показать ответы
1
Автор поста оценил этот комментарий
MPIO точно работает? Батарейки в контроллерах живые? Менялись хоть когда-то?
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

на контроллерах меняли батарейки, одну которая большая (хз как звать) и одна таблетка была обычная, меня на двух

3
Автор поста оценил этот комментарий

Боюсь, если кэш поврежден, то таки все, приехали, батарейки живы? Грохнуть все тома, создать заново и восстановить из бэкапа, который у вас естественно есть.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

бекап то есть, но как то тревожно такое делать, с виду то ошибка пустяковая.

батарейки меняли с месяца 3 назад, по очереди доставали модули и меняли, после этого оно работало и моментами ругалось на связь fc между блоками

1
Автор поста оценил этот комментарий

эээээ, а ничо что он у тебя на все мдиски матерится? чот похоже там совсем не один диск отвалился.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

это где глянуть ? я ошибок и не видел больше критических

1
Автор поста оценил этот комментарий
СХД подключена через FC-коммутатор или напрямую через hba-адаптеры к какому-то хосту (хостам)?
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

через fc + sfp, ну а дальше в сами сервера

показать ответы
1
Автор поста оценил этот комментарий

ивенты смотрел?

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

сейчас про винт только, пару раз видел ошибки о недоступности fibre channel, но как мне сказали, лечилось это перезагрузкой сервера, а схд вообще не трогали

Иллюстрация к комментарию
показать ответы
1
Автор поста оценил этот комментарий
А что за хосты? Был случай: полка загрузились позже чем гипервизор Цитрикс, диски без пинка неподключились
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

ну они на сервера идут, там астра крутится и базы мутятся

получается, что на момент перезагрузки серверов все 4 fc (ну если ребутнуть 1, то соответственно 2 fc) отключаются, система не видит схд и не грузится