24 Ноября 2024, 18:53

Вылетают HDD

Автор Zhan, 11 Ноября 2011, 11:28

« предыдущая тема - следующая тема »

0 Пользователей и 1 Гость просматривают эту тему.

Zhan

Hi.
Есть проблема:
на файловом сервере (Samba) raid5 (3 Seagate ST2000DL003 2TB SATA II) подмонтирован в /data
система стоит на отдельном 80Гб диске.
Вдруг! начали вылетать 2 диска из массива /dev/sdc1 и /dev/sdd1 причем одновременно.
Сервер сам проработал уже более 2 года, недели 3 назад были планово заменены диски на новые и обновлено ПО.
эти 3 недели сервер проработал без проблем.

А вчера началось в обед:
This is an automatically generated mail message from mdadm
running on smb.pgm.kz

A Fail event had been detected on md device /dev/md0.

It could be related to component device /dev/sdd1.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdd1[3](F) sdc1[4](F) sdb1[0]
      3907026816 blocks level 5, 64k chunk, algorithm 2 [3/1] [U__]
     
unused devices: <none>

и

This is an automatically generated mail message from mdadm
running on smb.pgm.kz

A Fail event had been detected on md device /dev/md0.

It could be related to component device /dev/sdc1.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdd1[3](F) sdc1[4](F) sdb1[0]
      3907026816 blocks level 5, 64k chunk, algorithm 2 [3/1] [U__]
     
unused devices: <none>

кусок /var/log/messages
Nov 10 13:51:56 smb kernel: sd 1:0:0:0: [sdc] Unhandled error code
Nov 10 13:51:56 smb kernel: sd 1:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 10 13:51:56 smb kernel: sd 1:0:0:0: [sdc] CDB: Read(10): 28 00 be c6 98 00 00 00 80 00
Nov 10 13:51:56 smb kernel: end_request: I/O error, dev sdc, sector 3200686080

закомментировал /dev/md0 в fstab, перегрузил
mdadm /dev/md0 --add /dev/sdc1
mdadm /dev/md0 --add /dev/sdd1
mdadm -R /dev/md0
mount /data

смотрю mdstat - все в порядке - даже синхронизация не понадобилась, как-будто ничего не произошло.
данные на месте.
ситуация повторилась в 23:02 вчера  http://linuxforum.kz/public/style_emoticons/<#EMO_DIR#>/sad.gif\' class=\'bbc_emoticon\' alt=\':(\' />

SMART /dev/sdc
SMART /dev/sdd

uname -a
Linux smb.pgm.kz 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 19:49:27 BST 2011 x86_64 x86_64 x86_64 GNU/Linux
А нынешние дураки ничем не хуже своих предков..:)

B@F

Я так понял винты поменяли. Могу посоветовать тока одно: обновится. Попробуй обновить ядро да заодно и md. Хотя еще можно проверить напряжение входное в блок питания и все выходные + контрольные точки на маме. Это конечно тока предположение, но вдруг из-за скачков напряжения винты начинают гнать.
Поправьте, если я ошибаюсь, буду тока рад.

Zhan

14 Ноября 2011, 11:32 #2 Последнее редактирование: 14 Ноября 2011, 11:33 от Zhan
Система Centos 6.0 и все ПО обновлено. замерить напряжение не могу, т.к. сервер в работе. Кстати я потом обратил внимание, что оба раза, с бекап сервера rsync тянул данные (~ 2Тб, скрипт я запускал вручную), может быть нагрузка на чтение зашкаливала?
В пятницу 20-30 скрипт rsync запустился по крону и данные синхронизировал - все нормально пока...
А нынешние дураки ничем не хуже своих предков..:)

B@F

Цитата: Zhan от 14 Ноября 2011, 11:32Система Centos 6.0 и все ПО обновлено. замерить напряжение не могу, т.к. сервер в работе. Кстати я потом обратил внимание, что оба раза, с бекап сервера rsync тянул данные (~ 2Тб, скрипт я запускал вручную), может быть нагрузка на чтение зашкаливала?
В пятницу 20-30 скрипт rsync запустился по крону и данные синхронизировал - все нормально пока...

Проверь все же данные SMART.
Поправьте, если я ошибаюсь, буду тока рад.

НаРазДва

Zhan а как производительность софт-рэйда, поделись мнением.

Zhan

Скорость записи на /dev/md0
[root@smb ~]# dd if=/dev/zero of=/data/test_wr bs=1M count=1024
1024+0 записей считано
1024+0 записей написано
 скопировано 1073741824 байта (1,1 GB), 4,05348 c, 265 MB/c
[root@smb ~]#

Скорость чтения с /dev/md0
[root@smb ~]# dd if=/data/test_wr of=/dev/null bs=1M count=1024
1024+0 записей считано
1024+0 записей написано
 скопировано 1073741824 байта (1,1 GB), 0,446875 c, 2,4 GB/c
[root@smb ~]#

p.s. вывод mount:

/dev/md0 on /data type ext4 (rw,grpquota)
Ваще тут все упирается в пропускную способность SAMBA.
в этой теме я писал об этом,
хоть и есть поддержка SMB2 - разницы я не почувствовал, а где-то прочитал, что на Win2008 файлсервере - скорость в 3 раза повышается.
А нынешние дураки ничем не хуже своих предков..:)