Формула для вычисления вероятности неустранимой ошибки чтения при перестроении RAID

Question

Формула для вычисления вероятности неустранимой ошибки чтения при перестроении RAID

Я хочу сравнить надежность различных RAID-систем с потребительскими (URE/bit = 1e-14) или корпоративными (URE/bit = 1e-15) дисками. Формула, чтобы иметь вероятность успеха перестроения (игнорируя механические проблемы, которые я буду учитывать позже) проста:

error_probability = 1-(1-per_bit_error_rate)^bit_read

важно помнить, что это вероятность получения хотя бы одного Уре, не обязательно только один.

Предположим, нам нужно 6 ТБ полезного пространства. Мы можем получить его с:

RAID1 с 1 + 1 дисками по 6 ТБ каждый. Во время перестроения мы читаем назад 1 диск 6TB и риск является следующим: 1-(1-1e-14)^(6e12*8)=38% для едока или 4,7% для приводов предпринимательства.
RAID10 с 2 + 2 дисками по 3 ТБ каждый. Во время перестроения мы читаем только 1 диск объемом 3 ТБ (тот, что в паре с отказавшим!) и риск меньше: 1-(1-1е-14)^(3e12*8)=21% для потребителя или 2.4% для корпоративных дисков.
RAID5 / RAID Z1 с 2 + 1 дисками по 3 ТБ каждый. Во время перестроения мы читаем обратно 2 диска по 3 ТБ каждый, и риск составляет: 1-(1-1e-14)^(2*3e12*8)=38% для потребителей или 4,7% или корпоративных дисков.
RAID5 / RAID Z1 с 3 + 1 дисками по 2 ТБ каждый (часто используется пользователями продуктов SOHO, таких как Synologys). Во время перестроения мы читаем обратно 3 диска по 2 ТБ каждый, и риск составляет: 1-(1-1e-14)^(3*2e12*8)=38% для потребителя или 4,7% или предприятия приводы.

вычисление ошибки для допуска одного диска легко, сложнее вычислить вероятность с системами, толерантными к отказам нескольких дисков (RAID6/Z2, RAIDZ3).

Если для перестроения используется только первый диск, а второй читается с начала в случае или URE, то вероятность ошибки вычисляется выше квадратного корня (14,5% для потребителя RAID5 2+1, 4,5% для потребителя RAID1 1+2). Однако, я полагаю (в по крайней мере, в ZFS с полными контрольными суммами!) что вторая четность/доступный диск считывается только там, где это необходимо, а это означает, что требуется только несколько секторов: сколько UREs может произойти на первом диске? не так много, иначе вероятность ошибки для однодисковых систем допуска взлетит еще больше, чем я рассчитал.

Если я прав, второй диск четности практически снизит риск до чрезвычайно низких значений.

вопрос в сторону, важно иметь в виду производители увеличивают вероятность появления жестких дисков потребительского класса по маркетинговым соображениям (продают больше дисков корпоративного класса), поэтому ожидается, что даже жесткие диски потребительского класса достигнут 1e-15 URE/bit read.

иные данные: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/

значения, которые я предоставил в скобках (корпоративные диски), поэтому реалистично применяются и к потребительским дискам. И реальные приводы предпринимательства имеют еще более высокая надежность (URE / bit=1e-16).

относительно вероятности механических повреждений, они пропорциональны количеству дисков и пропорциональны времени, необходимому для восстановления.

17

задан FarO

02.03.2023 3:08

2 ответа

102	61	31	71	5	8	10	6	4	20

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя

Email

Похожие вопросы про тегам:

raid

rebuild

zfs

score 3 · Answer 1

Это самый лучший ответ, с теорией вероятностей тоже:

http://evadman.blogspot.com/2010/08/raid-array-failure-probabilities.html?showComment=1337533818123#c7465506102422346169

score 2 · Answer 2

есть ряд сайтов и статей, которые пытаются решить этот вопрос.

этой сайт имеет калькуляторы для уровней RAID 0, 5, 10/50/60.

статья Википедии о уровни RAID разделы на RAID 0 и RAID 1 отказов.

RAID 0:

надежность данного набора RAID 0 равна средней надежности каждого диска, разделенного на количество дисков в set:

то есть надежность (измеряемая средним временем выхода из строя (MTTF) или среднее время наработки на отказ (MTBF) примерно обратно пропорционально к числу членов-таким образом, набор из двух дисков примерно вдвое меньше, чем надежный как одиночный диск. Если есть вероятность 5%, что диск потерпит неудачу не познее 3 лет, в массиве 2 дисков, то вероятность будет увеличена до {p} (по крайней мере, один сбой) = 1 - {p} (ни один из сбоев) = 1 - (1 - 0.05)^2 = 0.0975 = 9.75%.

RAID 1:

в качестве упрощенного примера рассмотрим RAID 1 с двумя идентичными моделями диска, каждый с вероятностью 5%, что диск выйдет из строя за три года. При условии, что отказы статистически независимые, то вероятность обоих дисков не в ходе три года жизни составляет 0,25%. Таким образом, вероятность потери всех данных составляет 0,25% за трехлетний период, если ничего не делать матрица.

Также я нашел несколько статей в блоге на эту тему, включая этот это напоминает нам, что независимые диски в системе (I в RAID) не могут быть независимыми в конце концов:

наивная теория заключается в том, что если жесткий диск 1 имеет вероятность сбоя 1/1000 и диск 2, то вероятность не является 1/1,000,000. Это предполагает, что сбои статистически независимая, но это не так. Вы не можете просто умножить вероятности, если неудачи не коррелируют. Ошибочно предполагая независимость распространенная ошибка в применении вероятности, возможно, самая распространенная ошибка.

Джоэл Спольский прокомментировал эту проблему в последнем StackOverflow подкаст. Когда компания строит рейд, они могут захватить четыре или пять диски, которые сошли с конвейера вместе. Если один из этих дисков имеет небольшой недостаток, который вызывает его сбой после, скажем, 10 000 часов использовать, скорее всего, они все делают. Это не просто теоретическое возможность. Компании наблюдали партии дисков все сбои примерно в то же время.

Apple	$173,24	+0,81%
Amazon	$114,49	-1,94%
Microsoft	$325,19	+3,61%
Google	$123,44	+2,11%
Netflix	$364,74	-0,03%
Intel	$27,45	-5,34%
Facebook	$254,49	+2,11%
Tesla	$185,54	+1,44%
Tencent	$322,40	-3,01%