Могут ли ошибки чтения, регистрируемые в S. M. A. R. T., быть вызваны контроллером?

у меня есть один маленький сервер в удаленном месте, что дает мне некоторые головные боли, так как теперь, казалось бы, съел третий жесткий диск в определенном слоте подряд.

последняя замена была сделана в мае (3TB WDC WD30PURX, если это имеет значение, это продолжалось всего 8 месяцев), и через некоторое время я снова заметил ошибки чтения. Тогда мне было интересно, действительно ли мне не повезло с этим, или если есть проблема с контроллером.

обычно я думал, что умный говорит только о том, что привод опытный, но потом я подумал, что, может быть, это было возможно, что он мог читать свои сектора нормально, но не мог написать их на контроллер, и это было зарегистрировано как ошибка?

вещи, которые сделали меня подозрительным было то, что в тот день, когда я обнаружил смарт-оповещения в первый раз, плохие сектора были все между 3330891687 до 3303035895, что делает это выглядеть как некоторые плохие поверхности и работает все виды инструментов на жестком диске все привело к различным ошибкам вокруг там, но в конце концов, каждый запрос чтения удался, и с тех пор сектор был "исцелен". Это было немного похоже на перераспределенные сектора для меня,но не было записано.

всего было 4527 ошибок чтения в 4153 разных секторах, теперь я не могу найти ни одного плохого (пробежал несколько раз по всему диску).

после этого после немного дней, вся развертка диска (Франтовская и через badblocks) не показала никакую ошибку на всех, и диск выполняет о'Кей.

ошибки появились в лога, как:

 [517871.828215] ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
 [517871.828219] ata6.00: BMDMA stat 0x25
 [517871.828223] ata6.00: failed command: READ DMA EXT
 [517871.828229] ata6.00: cmd 25/00:00:00:4f:68/00:02:c6:00:00/e0 tag 0 dma 262144 in
 [517871.828229]          res 51/40:cf:30:50:68/40:00:c6:00:00/e0 Emask 0x9 (media error)
 [517871.828232] ata6.00: status: { DRDY ERR }
 [517871.828234] ata6.00: error: { UNC }
 [517871.840411] ata6.00: configured for UDMA/133
 [517871.840538] sd 5:0:0:0: [sdd] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
 [517871.840543] sd 5:0:0:0: [sdd] tag#0 Sense Key : Medium Error [current] [descriptor]
 [517871.840547] sd 5:0:0:0: [sdd] tag#0 Add. Sense: Unrecovered read error - auto reallocate failed
 [517871.840551] sd 5:0:0:0: [sdd] tag#0 CDB: Read(16) 88 00 00 00 00 00 c6 68 4f 00 00 00 02 00 00 00
 [517871.840554] blk_update_request: I/O error, dev sdd, sector 3328725040
 [517871.840576] ata6: EH complete

и в С. М. А. Р. Т., Как:

Error 4527 [14] occurred at disk power-on lifetime: 1282 hours (53 days + 10 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 01 00 00 00 c6 49 3c a0 e0 00  Error: UNC 256 sectors at LBA = 0xc6493ca0 = 3326688416

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  25 00 00 01 00 00 00 c6 49 3c 00 e0 08  5d+23:59:09.617  READ DMA EXT
  25 00 00 00 18 00 00 c6 49 38 e8 e0 08  5d+23:59:09.617  READ DMA EXT
  25 00 00 00 10 00 00 c5 9d e7 00 e0 08  5d+23:59:09.610  READ DMA EXT
  25 00 00 00 c0 00 00 c5 9d b5 00 e0 08  5d+23:59:09.581  READ DMA EXT
  35 00 00 00 18 00 00 c6 49 38 e8 e0 08  5d+23:59:09.581  WRITE DMA EXT

для меня это первый выглядит как ошибка поверхности и перераспределение не удалось. Однако из этого я привык видеть, что некоторые из счетчиков умных значений растут, в частности, либо текущие ожидающие сектора, либо перераспределенное количество секторов. Но никакое значение не увеличивается:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   165   145   051    -    36676
  3 Spin_Up_Time            POS--K   100   253   021    -    0
  4 Start_Stop_Count        -O--CK   100   100   000    -    3
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   099   099   000    -    1402
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    2
192 Power-Off_Retract_Count -O--CK   200   200   000    -    0
193 Load_Cycle_Count        -O--CK   200   200   000    -    7
194 Temperature_Celsius     -O---K   119   119   000    -    31
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    0
198 Offline_Uncorrectable   ----CK   100   253   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   001   001   000    -    102665
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

TL; DR

это просто какой-то случай "плохого поведения жесткого диска" или что-то не так на стороне контроллера? Или даже С. М. А. Р. Т. само сломалось? У меня такое чувство, что я упускаю что-то очевидное здесь, что объяснило бы несоответствие.


Примечание: у меня есть замена в режиме ожидания, и через несколько дней у меня будет возможность физически посетить сервер, так что до тех пор нет кабеля шевелить или тому подобное.

5
задан PlasmaHH
18.02.2023 1:42 Количество просмотров материала 2672
Распечатать страницу

1 ответ

короткий ответ и ответ на ваш вопрос заголовка: да, контроллер / компьютер может вызвать интеллектуальные ошибки. #1 причина, если у вас есть шумный кабель или плохо / из спецификаций драйверов SATA/SAS и повреждает команды, отправленные по SATA/SAS на диск. Диск будет CRC проверить и не эту команду, и он будет регистрировать эту ошибку смарт как ошибка CRC команды.

длинный и сложный ответ, основанный на данных тела: однако я не думаю, что это так для вас потому что не было ошибки CRC. Имейте в виду, что есть два "соединения" с жестким диском от компьютера - data и POWER. Хотя не уверен, это, скорее всего, если это слот, связанный, власть собирается диск вызывает диск вести себя плохо, если вы не только ошибки CRC.

здесь действительно недостаточно данных, чтобы окончательно ответить на ваш вопрос, вполне возможно, что у питания, идущего в этот слот, возникают проблемы. Когда мощность не определена, все ставки отключены чтение / запись на диск.

2
отвечен boxer4 2023-02-19 09:30

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх