linux user group brescia

immagine del castello

Archivio della mailing list

RAID-1 recovery (automatica) che non funge

Luca Coianiz luca a coianiz.it
Mer 15 Set 2004 23:39:58 UTC
On Wed, 15 Sep 2004, andrea gelmini wrote:
>On Tue, Sep 14, 2004 at 03:00:13PM +0200, Luca Coianiz wrote:
>>  Così a sensazione mi sembra un pò una situazione di stallo, [...CUT...]
>>  Consigli?
>non sei in una situazione di stallo, semplicemente uno dei due dischi del
>raid1 e' stato escluso dal raid.

 Beh... detta così sembra già meno grave. :)

> riassumendo: si spegne male la macchina,

 ...più volte e senza permettere al RAID il resync...

>il raid software ha l'array composta dai due dischi e li deve solo
>re-syncare al reboot. nel tuo caso, invece, per ragioni che possono essere
>le piu' varie, e indipendenti dal problema dell'alimentatore (tipo settore
>a balle, ecc),

 ...I/O error...

> il software raid ha escluso dalla catena/array un disco.
>ad ogni modo, ora devi aggiungerlo, quindi, a caldo, dai una cosa tipo:
>
>mdadm --add /dev/md0 /dev/partizione
>
>se invece usi i raidtools sfrutta raidhotadd.

 E ci voleva tanto a dirlo!!! :D

 (ovviamente scherzo) ;)

 A parte casini che credo siano rimasti (e/o aggiunti/rivelati altri)...

---8<---
Sep 16 01:05:06 home kernel: md: syncing RAID array md0
Sep 16 01:05:06 home kernel: md: minimum _guaranteed_ reconstruction speed:
100 KB/sec/disc.
Sep 16 01:05:06 home kernel: md: using maximum available idle IO bandwith
(but not more than 100000 KB/sec) for reconstruction.
Sep 16 01:05:06 home kernel: md: using 124k window, over a total of 39905344
blocks.
Sep 16 01:08:37 home kernel: hdb: dma_intr: status=0x51 { DriveReady
SeekComplete Error }
Sep 16 01:08:37 home kernel: hdb: dma_intr: error=0x40 { UncorrectableError
}, LBAsect=2023687, sector=1429248
Sep 16 01:08:37 home kernel: end_request: I/O error, dev 03:43 (hdb), sector
1429248
Sep 16 01:08:42 home kernel: hdb: dma_intr: status=0x51 { DriveReady
SeekComplete Error }
Sep 16 01:08:42 home kernel: hdb: dma_intr: error=0x40 { UncorrectableError
}, LBAsect=2023687, sector=1429256
Sep 16 01:08:42 home kernel: end_request: I/O error, dev 03:43 (hdb), sector
1429256
(...and so on, ma "solo" in 5 settori, per ora...)
---8<---

 ...pare che anche hdb, che sarebbe la parte "sana" del RAID, abbia i suoi
problemi: spero solo che il sw riesca a venirne fuori (magari marcando "bad"
i settori).

 A parte questo, dicevo, una volta che ho "riabilitato" la raidtab che avevo
creato in etc ho potuto lanciare raidhotadd:

home:/ # raidhotadd /dev/md0 /dev/hda3

 e, dopo aver rognato un pò, è partita la ricostruzione del RAID:

---8<---
Sep 16 01:05:06 home kernel: md: syncing RAID array md0
Sep 16 01:05:06 home kernel: md: minimum _guaranteed_ reconstruction speed:
100 KB/sec/disc.
Sep 16 01:05:06 home kernel: md: using maximum available idle IO bandwith
(but not more than 100000 KB/sec) for reconstruction.
Sep 16 01:05:06 home kernel: md: using 124k window, over a total of 39905344
blocks.
---8<---


 Piuttosto, guarda qui:

---8<---
home:~ # cat /proc/mdstat
Personalities : [raid1]
read_ahead 1024 sectors
md0 : active raid1 hda3[2] hdb3[1]
      39905344 blocks [2/1] [_U]
      [==>..................]  recovery = 13.3% (5318656/39905344)
finish=163.3min speed=3526K/sec
unused devices: <none>
---8<---

 Dici che il fatto che lo stato è ancora [_U] è solo perchè il resync è
ancora in corso?.. o è proprio scassato hda3? (ma ora mi dà attivi sia hda3
che hdb3)... mumble...

>comunque, tipicamente e' sufficiente 'cat /proc/mdstat' per
>capire/diagnosticare un problema sul raid.

 Beh... per capire che c'era il problema di sicuro.
 Però poi non sapevo più che fare, dato che continuava a kickarmi fuori
hda3. :(

 Ahhh... tu si che sei un vero sistemista... mica il Ghido... "compra un
nuovo HD"... "compra un nuovo HD"... ;)))))

 LOL... a parte tutto, grazie ad entrambi per le risposte. :)

 Ghidinelli dice, giustamente, di andarci con i piedi di piombo "perchè è un
attimo spu##anarsi i dati", ed in questo ha ragionissima: comunque, prima di
lanciare il resync, ho copiato tutti i dati del RAID su un terzo disco. (era
un pò quello che mi bloccava: non volevo compiere azioni "potenzialmente
distruttive" prima di avere una copia dei dati)

 Nonostante il RAID stia (ri)entrando in servizio, qualche problema
(hardware) è sicuramente rimasto e credo che dovrò acquistare davvero una
nuova coppia di dischi... d'altro canto, quando l'alimentatore comincia a
fare il matto con uno spegnimento dietro l'altro, anche i poveri dischi IDE
se la vedono brutta (e saltano).

 Questa volta poi è decisamente colpa mia: sapevo che la ventola aveva
"qualcosa" (che solitamente equivale a rottura cuscinetti) ed è un pò che
sto pensando di comprarmi un server serio... sono stato solo punito per la
mia pigrizia. ;)

 Per fortuna, tra RAID-1 ed Ext3, pare che i dati siano salvi. E' tutta
esperienza... e (finalmente) sto cominciando anche a dare un'occhiata al
backup. ;)

	LC





Maggiori informazioni sulla lista Lug