Raid fällt ständig aus.

BillaBong

Erfahrenes Mitglied
Hallo,

folgendes Problem ich habe ein Hardware Raid mit einem 3ware controller und 4 SATA Festplatten. Zusätzlich habe ich einen Softwareraid mit 2 scsi Festplatten das aber nicht ausfällt. Das Softwareraid ist unter md0 ( sda1, sdb1 ) md1 ( sda2, sda2 ) errichbar der Harwarraid wird unter sdc ( sdc1 ) gemountet. Kommt es jetzt vor das der Hardwarraid ausfällt und ich möchte auf dem gemounteten verzeichnis ein ls machen kommt folgende meldung

Code:
ls: lese Verzeichnis .: Eingabe-/Ausgabefehler

gehe ich jetzt unter /dev/ ist das sdc ( sdc1 ) nicht mehr aufgeführt. Jetzt mach ich in der Regel einen Neustart sdc und sda werden jetzt automatisch vertauscht das Softwareraid besteht dann aus md0 ( sdb1, sdc1 ) md1 ( sdb2, sdc2 ) und das hardware raid mounte ich unter sda (sda1). Fällt das raid wieder aus wecheslt sdc und sda wieder. sdb bleibt immer gleich. Ich habe jetzt mal noch ein lsmod

Code:
Module                  Size  Used by

ipv6                  226272  22 

ipt_TCPMSS              4096  1 

xt_tcpudp               3136  25 

xt_state                2272  12 

ipt_REJECT              5248  3 

ip_conntrack_ftp        7760  0 

ip_conntrack_irc        6800  0 

iptable_mangle          2880  0 

iptable_nat             7044  0 

ip_nat                 16876  1 iptable_nat

ip_conntrack           49088  5 xt_state,ip_conntrack_ftp,ip_conntrack_irc,iptable_nat,ip_nat

nfnetlink               6680  2 ip_nat,ip_conntrack

iptable_filter          3104  1 

ip_tables              13028  3 iptable_mangle,iptable_nat,iptable_filter

x_tables               13316  6 ipt_TCPMSS,xt_tcpudp,xt_state,ipt_REJECT,iptable_nat,ip_tables

button                  6672  0 

ac                      5188  0 

battery                 9636  0 

tun                    10336  1 

dm_snapshot            15552  0 

dm_mirror              19152  0 

dm_mod                 50232  2 dm_snapshot,dm_mirror

loop                   15048  0 

tsdev                   7520  0 

joydev                  9088  0 

evdev                   9088  0 

psmouse                35016  0 

floppy                 53156  0 

rtc                    12372  0 

serio_raw               6660  0 

ibmasm                 23468  0 

pcspkr                  3072  0 

i2c_piix4               8268  0 

i2c_core               19680  1 i2c_piix4

ibmphp                 62556  4294967295 

pci_hotplug            28704  1 ibmphp

sg                     31292  0 

ext3                  119240  3 

jbd                    52456  1 ext3

mbcache                 8356  1 ext3

raid1                  21056  3 

md_mod                 70388  4 raid1

ide_generic             1408  0 [permanent]

ide_cd                 36064  0 

cdrom                  32544  1 ide_cd

sd_mod                 19040  10 

serverworks             8328  0 [permanent]

ohci_hcd               18276  0 

aic7xxx               150932  6 

generic                 4868  0 [permanent]

e100                   32232  0 

usbcore               112644  2 ohci_hcd

3w_xxxx                24832  1 

scsi_transport_spi     22336  1 aic7xxx

ide_core              110504  4 ide_generic,ide_cd,serverworks,generic

mii                     5344  1 e100

scsi_mod              124168  5 sg,sd_mod,aic7xxx,3w_xxxx,scsi_transport_spi

thermal                13608  0 

processor              28840  1 thermal

fan                     4804  0

und den teil bei dem ich vermute wo der raid abschmiert aus der /var/kern.log

Code:
Oct 16 09:54:19 server kernel: kjournald starting.  Commit interval 5 seconds

Oct 16 09:54:19 server kernel: EXT3 FS on sda1, internal journal

Oct 16 09:54:19 server kernel: EXT3-fs: recovery complete.

Oct 16 09:54:19 server kernel: EXT3-fs: mounted filesystem with ordered data mode.

Oct 16 13:52:14 server kernel: 3w-xxxx: Shutting down host 0.

Oct 16 13:52:14 server kernel: 3w-xxxx: Shutdown complete.

Oct 16 13:52:14 server kernel: ACPI: PCI interrupt for device 0000:0a:01.0 disabled

Oct 17 00:13:38 server kernel: NET: Registered protocol family 10

Oct 17 00:13:38 server kernel: lo: Disabled Privacy Extensions

Oct 17 00:13:38 server kernel: IPv6 over IPv4 tunneling driver

Oct 17 00:13:48 server kernel: eth0: no IPv6 routers present

Oct 17 06:25:32 server kernel: scsi 0:0:0:0: rejecting I/O to dead device

Oct 17 06:25:37 server last message repeated 2 times

Oct 17 06:25:37 server kernel: Buffer I/O error on device sda1, logical block 1551

Oct 17 06:25:37 server kernel: lost page write due to I/O error on sda1

Oct 17 06:25:37 server kernel: Aborting journal on device sda1.

Oct 17 06:25:48 server kernel: scsi 0:0:0:0: rejecting I/O to dead device

Oct 17 06:25:48 server kernel: EXT3-fs error (device sda1): ext3_find_entry: reading directory #2 offset 0

Oct 17 06:25:48 server kernel: scsi 0:0:0:0: rejecting I/O to dead device

Oct 17 06:25:48 server kernel: Buffer I/O error on device sda1, logical block 0

Oct 17 06:25:48 server kernel: lost page write due to I/O error on sda1

Oct 17 06:26:07 server kernel: scsi 0:0:0:0: rejecting I/O to dead device

Oct 17 06:26:07 server kernel: Buffer I/O error on device sda1, logical block 1027

Oct 17 06:26:07 server kernel: lost page write due to I/O error on sda1

Oct 17 08:37:03 server kernel: scsi 0:0:0:0: rejecting I/O to dead device

Oct 17 08:37:03 server kernel: ext3_abort called.

Oct 17 08:37:03 server kernel: EXT3-fs error (device sda1): ext3_journal_start_sb: Detected aborted journal

Oct 17 08:37:03 server kernel: Remounting filesystem read-only

Oct 17 08:37:26 server kernel: scsi 0:0:0:0: rejecting I/O to dead device

Oct 17 08:37:27 server kernel: scsi 0:0:0:0: rejecting I/O to dead device

Oct 17 08:37:27 server kernel: EXT3-fs error (device sda1): ext3_find_entry: reading directory #2 offset 0

ich hab jetzt auch schon in mehreren Foren gepostet aber niemand hat geantwortet. Vielleicht hat jemand auch nur eine idee wie ich weiter kommen könnte das würde mir eventuell auch schon helfen. Danke im vorraus
 
Folgende Ideen:
  • Der RAID-Controller koennte eine Macke haben.
  • Linux versucht den RAID-Controller wegen Inaktivitaet schlafen zu schicken. Dieser unterstuetzt dies aber nicht (oder der Treiber hat noch ein Problem damit) und somit wird dieser komplett deaktiviert oder geht schlafen und kann anschliessend nicht aufgeweckt werden.

Halt nur mal so als Idee. Mit echtem Hardware-RAID hatte ich direkt leider bislang nur passiv zu tun.
 
Noch eine Idee,

wenn du Wechselrahmen benutzt, speziell SATA kann es vorkommen, das die Kabelverbindung sich lockert oder keinen Kontakt hat. War zumindest bei mir mal so.

Gruss
 
das der Controller ne macke hat habe ich mir auch schon überlegt somal ich das ding gebraucht gekauft habe. Das Problem ist das der Server im Rechenzentrum steht und ich Hardware seitig nicht Prüfen kann. Auch an die Kabel hatte ich schon gedacht, da ich schon öffter gelesen habe das es da schon mal Probleme gibt. Ich werde dann wohl nicht rum kommen das Ding mal nach hause zu holen. Dachte nur vielleicht das Jemand ne idee hat was ich software mäßig noch Ausprobieren könnte, bevor ich den Server nach hause nehme.

@Dennis Wronka : Kann man das im Linux abschalten das der Controller bei inaktivität Schlafen geschickt wird ?
 
Hallo,

ich habe in der Zwischenzeit einen Teilerfolg erziehlt.

Und zwar habe ich das Problem das die /dev/sda bzw sda festplattenzuweisungen beim Neustart wechseln gelöst in dem ich mit blkid die UUID des HardwareRaids ermittelt habe und diese UUID anstatt des /dev/.. Pfades in der /etc/fstab verwende.

Für alle die die mal ein ähnliches Problem haben die UUID ist eine eindeutige Id für Laufwerke --> http://linuxwiki.de/UUID
 
Zuletzt bearbeitet:
UPDATE:

also ich habe mir Gestern mal noch den Tipp von Herrn Wronka zu Herzen genommen und mich mit dem Standby beschäftigt.

Linux versucht den RAID-Controller wegen Inaktivitaet schlafen zu schicken. Dieser unterstuetzt dies aber nicht (oder der Treiber hat noch ein Problem damit) und somit wird dieser komplett deaktiviert oder geht schlafen und kann anschliessend nicht aufgeweckt werden.

Ich habe jetzt mal Linux verboten auf das Power Managment ( acpi ) des Bios zuzugreifen. Ich habe meine Grub /boot/grub/menue.lst um ein acpi=off erweiter.

Code:
title           Debian GNU/Linux, kernel 2.6.18-6-686
root            (hd0,0)
kernel          /vmlinuz-2.6.18-6-686 root=/dev/md2 ro acpi=off
initrd          /initrd.img-2.6.18-6-686
savedefault

jetzt Läuft das Raid seit einem Tag Stabiel was es schon länger nicht mehr der fall war. Ich habe jetzt nur so meine Bedenken und weiss nicht ob die Lüftersteuerung vom Server über die Hardware bzw Bios oder vom OS gesteuert wird. Hat da von euch jemand erfahrung ? Net das die Lüfter da die ganze Zeit Full Power laufen.

Ja und was mir noch aufgefallen ist, in dem server sind 4 1,6 XEON cpu´s. In htop und in cat /proc/cpuinfo bekam ich immer 8 Kerne angezeigt, seit dem acpi=off sind es nur noch 4. Weiss da jemand warum. Sind die Cpu´s jetzt langsamer ?
 
Zuletzt bearbeitet:
Hi,

dieser Beitrag von mir ist zwar schon ein bisschen älter das Problem aber immer noch das gleiche :).

Ich habe den Server jetzt mal zwischenzeitig 3 wochen zu hause laufen lassen da lief er stabiel durch. der erste tag im rechenzentrum war das Raid schon wieder sofort ausgefallen. Hatte von euch schon mal jemand ein ähnliches problem ?
 
Zurück