Das deutsche QBasic- und FreeBASIC-Forum Foren-Übersicht Das deutsche QBasic- und FreeBASIC-Forum
Für euch erreichbar unter qb-forum.de, fb-forum.de und freebasic-forum.de!
 
FAQFAQ   SuchenSuchen   MitgliederlisteMitgliederliste   BenutzergruppenBenutzergruppen  RegistrierenRegistrieren
ProfilProfil   Einloggen, um private Nachrichten zu lesenEinloggen, um private Nachrichten zu lesen   LoginLogin
Zur Begleitseite des Forums / Chat / Impressum
Aktueller Forenpartner:

[Gelöst] linux raid (mdadm) im arsch [edit]

 
Neues Thema eröffnen   Neue Antwort erstellen    Das deutsche QBasic- und FreeBASIC-Forum Foren-Übersicht -> Computer-Forum
Vorheriges Thema anzeigen :: Nächstes Thema anzeigen  
Autor Nachricht
ThePuppetMaster



Anmeldungsdatum: 18.02.2007
Beiträge: 1837
Wohnort: [JN58JR]

BeitragVerfasst am: 09.07.2011, 15:01    Titel: [Gelöst] linux raid (mdadm) im arsch [edit] Antworten mit Zitat

Hallöle.

Seit gestern habe ich ein massives Problem mit meinem neuem LINUX SW-RAID, das wochenlang problemlos lief.

Der Zugriff auf auf den mit NFS bestückten RAID-Server stockte. Folglich wollte ich mal nachsehen, was sache ist, udn hab dmesg aufgerufen, woraufhin sich mir eine Liste übler Meldungen auftischten.

Ala:
Code:

Jul  8 16:37:42 data20 kernel: [  101.816388] ata6: hard resetting link
Jul  8 16:37:42 data20 kernel: [  102.136039] ata6: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Jul  8 16:37:42 data20 kernel: [  102.160408] ata6.00: configured for UDMA/66
Jul  8 16:37:42 data20 kernel: [  102.160445] ata6: EH complete
Jul  8 16:37:43 data20 kernel: [  102.653376] ata6: hard resetting link
Jul  8 16:37:43 data20 kernel: [  102.972036] ata6: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Jul  8 16:37:43 data20 kernel: [  102.996387] ata6.00: configured for UDMA/66
Jul  8 16:37:43 data20 kernel: [  102.996414] ata6: EH complete
Jul  8 16:38:14 data20 kernel: [  133.816380] ata6: hard resetting link
Jul  8 16:38:14 data20 kernel: [  134.136041] ata6: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Jul  8 16:38:14 data20 kernel: [  134.160414] ata6.00: configured for UDMA/66
Jul  8 16:38:14 data20 kernel: [  134.160445] ata6: EH complete


und davon ist /var/log/messages voll

also erstmal SMART drüber laufen lassen. Problemlos. Keine Fehler, auch auf allen Platten im RAID. Etwas gegoogelt -> SATA-Kabel könnten Probleme bereiten. Also los zum Schop, und 10 neue SATA-3 Kabel besorgt.

Eingebaut, problem nicht beseitigt.

nach mehreren Reboots / Power On / Off / Reboot / usw. hat sich jetzt das Bild des Servers derart verändert das ich nicht mehr weiter weis.


Die Bestückung des RAID-Servers sieht folgendermassen aus:
AMD Athlon 1,2GHz
2x Sillicon Image SATA-RAID Controler
4x 1TB Platten via SlotIn
Linux Debian 5
NFS
mdadm



Konfiguration:
sda1, sdb1 = md0 (raid1) 1TB
sdc1, sdd1 = md1 (raid1) 1TB



Derzeit scheint es mir, als wenn die RAID's vollständig im Arsch sind, was zu einem sowohl Wirtschaftlichem als auch Finanziellem Totalschaden für mich werden würde.



Der Server Arbeitet wie schon geschrieben mit Debian 5 und auf ihm läuft NFS.
es Befinden sich 2 RAID1 Sets darauf, welche aus je 2 1TB Platten des selben Herstellers und Types bestehen.



Ich benötige Die Daten unbedingt und möchte nun ein zusätzliches Backup auf eine Externe Festplatte fahren um das Raid neu aufsetzen zu können. Problem ist allerdings das ich die Disk's nicht einzeln gemountet bekomme.

Code:

root@data20:/home/tpm# mount -t ext2 /dev/sdc1 /mnt/
mount: wrong fs type, bad option, bad superblock on /dev/sdc1,
       missing codepage or helper program, or other error
       In some cases useful info is found in syslog - try
       dmesg | tail  or so

root@data20:/home/tpm# mount -t ext3 /dev/sdc1 /mnt/
mount: wrong fs type, bad option, bad superblock on /dev/sdc1,
       missing codepage or helper program, or other error
       In some cases useful info is found in syslog - try
       dmesg | tail  or so

root@data20:/home/tpm# mount -t ext2 /dev/sdc /mnt/
mount: wrong fs type, bad option, bad superblock on /dev/sdc,
       missing codepage or helper program, or other error
       In some cases useful info is found in syslog - try
       dmesg | tail  or so

root@data20:/home/tpm# mount -t ext3 /dev/sdc /mnt/
mount: wrong fs type, bad option, bad superblock on /dev/sdc,
       missing codepage or helper program, or other error
       In some cases useful info is found in syslog - try
       dmesg | tail  or so

root@data20:/home/tpm#


paradoxer weise reportet fdisk, das md1 keinen valide partition enthalten würde, allerdings ist der zugriff darauf (1 out of 2 disks) möglich.

auf md0 ist derzeit kein zugriff möglich.


gibt es eine möglichkeit die Disk's einzeln zu mounten, so das ich zumindest auf die Daten zugreifen kann um die zu spiegeln?


anbei noch etwas log und konfigurations Auszüge: http://ops.ath.cx/code?id=123


EDIT
Habs jetzt zum laufen bekommen, zumindest fürs BackUp.

Aber, hat eienr von euch noch ne idee, warum das RAID sich verabschiedet hat?, und woher diese fu** Fehler im log kommen, wenn nicht vom Kabel? .. die Disk's scheinen ja auch alle I.O. zu sein, laut SMART.


MfG
TPM
_________________
[ WebFBC ][ OPS ][ ToOFlo ][ Wiemann.TV ]


Zuletzt bearbeitet von ThePuppetMaster am 14.07.2011, 11:50, insgesamt 2-mal bearbeitet
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
28398



Anmeldungsdatum: 25.04.2008
Beiträge: 1917

BeitragVerfasst am: 10.07.2011, 18:07    Titel: Antworten mit Zitat

Controller kaputt?
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
ThePuppetMaster



Anmeldungsdatum: 18.02.2007
Beiträge: 1837
Wohnort: [JN58JR]

BeitragVerfasst am: 10.07.2011, 18:20    Titel: Antworten mit Zitat

Beide? ... kann ich nicht glauben ... zwar möglich, aber doch unwarscheinlich, das sie den geist aufgeben.

interessant ist z.B. auch, was ich heute entdeckt habe, nachdem ich das backup gefahren hab, das die Datenkopie scheinbar problemlos funktoniert, bis ich bei einigen weiter hinten liegenden sektoren ankomme. Ab da fängt es dann an zu stocken. Es kopiert für ca. 2 bis 3 sek all mögliche daten, und dann hängt er für ca. 30sek., macht dann den ATA-Reset, und dann funzt alles wieder problemlos, bis er nach 2 bis 3 sek. wieder ins stocken kommt, und anschliessend für 30sek. einfriert.

Das deutet natürlich darauf hin, das KEIN schaden an der Oberfläche der disk vorhanden ist. Dafür wäre die beschädigung viel zu symetrisch. Zumal die Oberflächenanalyse von SMART dies aufgedeckt hätte.

ich rätsel auch schon damit herum, das event der Controler probleme mit zu grossen adresse haben könnte, die ja folglich aus den grösseren 1TB Platten entstehen, aber warum er dann für einige sek's problemlos arbeiten kann is komisch.

auf jeden fall bin ich quasi am verzeifeln, weil derartige probleme nicht tragbar sind. und, extra n neuen controler für 300 euro anschaffen is nicht sehr rationel, wenn man das problem nicht identifiziert hat!

naja.. vieleicht hat ja einer von euch noch eine idee, wasworan es liegen könnte!


MfG
TPM
_________________
[ WebFBC ][ OPS ][ ToOFlo ][ Wiemann.TV ]
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
Sebastian
Administrator


Anmeldungsdatum: 10.09.2004
Beiträge: 5969
Wohnort: Deutschland

BeitragVerfasst am: 10.07.2011, 19:02    Titel: Antworten mit Zitat

Wenn das bei dir sogar noch ein SATA-150 Controller ist (sieht danach aus), könnte es ja durchaus sein, dass der mit Festplatten >= 1TB noch nicht richtig zurechtkommt (Firmware-Problem?) und früher oder später Zugriffsprobleme bekommt.
Der On-Board-Controller meines schon etwas älteren "Primergy" war auch nur auf HDDs bis 500 GB ausgelegt.


/me sieht sich jedenfalls darin bestätigt, unter Linux 3ware Hardware-RAID-Controller einzusetzen. grinsen

Vor einigen Jahren hatte ich mal bei einem Dawicontrol-IDE-RAID-Controller (wie bei dir eine sehr "preisgünstige" Lösung) einen Totalverlust eines RAID1-Arrays (allerdings unter Windows). Da ich damals alle wesentlichen Daten noch anderweitig gesichert hatte, war's zum Glück keine Katastrophe, ärgerlich aber allemal. Jedenfalls war's mir eine Lehre, in Sachen RAID keine halben Sachen mehr zu machen. Software-RAID/Fake-RAID kommt mir nicht mehr in die Tüte.
_________________

Der Markt regelt das! | Opas Leistung muss sich wieder lohnen - für 6 bis 10 Generationen!
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden E-Mail senden Website dieses Benutzers besuchen
Jojo
alter Rang


Anmeldungsdatum: 12.02.2005
Beiträge: 9736
Wohnort: Neben der Festplatte

BeitragVerfasst am: 10.07.2011, 19:55    Titel: Antworten mit Zitat

Zitat:
Da ich damals alle wesentlichen Daten noch anderweitig gesichert hatte, war's zum Glück keine Katastrophe

So ist das mit den RAIDs... grinsen
_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden Website dieses Benutzers besuchen
ThePuppetMaster



Anmeldungsdatum: 18.02.2007
Beiträge: 1837
Wohnort: [JN58JR]

BeitragVerfasst am: 11.07.2011, 20:42    Titel: Antworten mit Zitat

sehr konstruktiv und hilfreich @jojo ... verwundert

@Sebastian
Jetzt wo du es sagst, wäre das durchaus eine möglichkeit.
Allerdigns gibt es im I-Net keine Anmerkungen diesbezüglich. Viele Haben Probleme mit 1TB und dem Sil3112. Hier würde die Platte zwar erkannt, doch deren kapazität nicht.

Bei Mir ist das Problem ja ansich nicht vorhanden, so wie es die meisten angeben.
Meien Platten werden erkannt, die kapazität stimmt auch, ich kann auf sie zugreifen, und auch damit arbeiten.

Theoretisch ist der Sil ja auch nur ein SATA-PCI Bridge Controler. Es schleust quasi die Kommandos an den SATA nur durch. ... Daher müssten doch die Probleme eher zwischen PCI / OS und dem Controler auf der Platte her rühren.

Ich habe leider kein Board, das über ein SATA verfügt. Daher kann ich das nur mit Controler-Karten machen.

Was vieleicht noch Problematisch werden könnte ist die tatsache, das die Disk 6GBaud/s macht, aber der Controler nicht.

Allerdings gehe ich mal davon aus (ohne die SATA-Specs zu lesen), das hier ein SwitchDown gemacht wird, damit auch neue / alte Modelle Kompatibel werden können.


edit
Also, wenn der vom Controler verwendete Core der selbe ist, wie der soc core: http://www.siliconimage.com/products/product.aspx?pid=56 , dann unterstützt er 48Bit sektor adressen. Was eigetnlich darauf hin deutet, das er mit 1TB Platten kompatibel sein sollte.


MfG
TPM
_________________
[ WebFBC ][ OPS ][ ToOFlo ][ Wiemann.TV ]
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
Jojo
alter Rang


Anmeldungsdatum: 12.02.2005
Beiträge: 9736
Wohnort: Neben der Festplatte

BeitragVerfasst am: 12.07.2011, 06:35    Titel: Antworten mit Zitat

ThePuppetMaster hat Folgendes geschrieben:
sehr konstruktiv und hilfreich @jojo ... verwundert

Wäre dir etwa eine andere Art zu sagen, dass ein RAID keine Backups ersetzt, lieber? Wenn der Verlust eines RAIDs einen "wirtschaftlichen Totalschaden" bei dir zur Folge hätte, hast du was falsch gemacht.
_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden Website dieses Benutzers besuchen
MilkFreeze



Anmeldungsdatum: 22.04.2011
Beiträge: 116

BeitragVerfasst am: 12.07.2011, 10:48    Titel: Antworten mit Zitat

Jojo hat Folgendes geschrieben:
ThePuppetMaster hat Folgendes geschrieben:
sehr konstruktiv und hilfreich @jojo ... verwundert

Wäre dir etwa eine andere Art zu sagen, dass ein RAID keine Backups ersetzt, lieber? Wenn der Verlust eines RAIDs einen "wirtschaftlichen Totalschaden" bei dir zur Folge hätte, hast du was falsch gemacht.


Volle Zustimmung. Wichtige Daten lagert man nicht nur einmal. Bei mir @Work existiert eine Datei 4 fach gespiegelt. Dazu gibts täglich back-ups auf Band, falls dochmal was passiert. Und die Dinger landen dann im Panzerschrank.

Ja gut, für ThePuppetMaster vielleicht etwas viel, aber einmal die Woche den Kram auf einen Externen Datenträger schieben und das ding in den Schrank legen ist ja wohl nicht zu viel verlangt lächeln

Sorry fürs "Nochmal Reintreten", aber wenn Kinder das lesen bleibt vielleicht was hängen zwinkern
_________________
Milch ftw grinsen
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
ThePuppetMaster



Anmeldungsdatum: 18.02.2007
Beiträge: 1837
Wohnort: [JN58JR]

BeitragVerfasst am: 12.07.2011, 11:09    Titel: Antworten mit Zitat

Bei mir sind die Files ebenfalls 4Fach gespiegelt. Jedoch nicht in einem RAID1, sondern in 2x Raid1 je 1TB .. das ich Fehler mit allen 4 Disks habe ist nun mal einfach ein dämmlicher Zufall.

Da es sich hier auch um Daten handelt, deren Syncronumlaufzeit extrem kurz ist wäre es keinesfalls ratsam nur jede Woche ein Backup zu fahren. Teilweise sind die Projektumlaufzeiten schon nach 2 tagen gegeben. Was ein Backup schon innerhalb eines Tages von nöten macht. Da die Projekte immense Werte besitzen, kann der Verlust von einem oder 2 Projekte(n) schon zu einem Wirtschaftlichem Totalschaden führen.

Darum existieren ja auch 4 Platten. mit 2 seperaten Controllern, und 2 unterschiedlichen Disks pro Controler. Um Ausfäller von der Herstellerseite der Disks zu vermeiden oder Ausfälle des Controlers.

Der Aufbau einer TAPE-Library wäre in macher Hinsicht durchaus als sichere alternative zu betrachten, allerdings wie schon zuvor erwähnt, der Verlust untragbar, im Verhältniss zu den hierfür entstehenden Kosten.

Und, @jojo ... egal was du damit sagen möchtest, ich sehe einfach 0 Zusammenhang zu deinen Post(s) und der Lösung des derzeit existierendem Problems meinerseites. Daher sind solche Nachrichten weder konstruktiv, noch tragen sie zur Lösung des aktuellen Problems bei. Folge -> SPAM! >Punkt<

@Sebastian. Ich (glaube) das Problem jetzt gefunden zu haben. Es scheint, als wären beide PCI Ports der Controller beschädigt. Das wird sich zwar erst nach einigen Tests genau sagen lassen, aber derzeit laufen die Controller wieder zuverlässig und die Zugriffe erzeugen nach dem Umbau auf andere PORT's keine Fehler. (hatte ich in dieser Form so auch noch nie erlebt)

Alle 4 Disk's arbeiten derzeit und die Daten sind noch Synchron.

Ich habe mich auch durch die Firmware's gearbeitet, und herausgefunden, das es vor einigen Versionen einmal ein Problem mit der detektion von 2TB Platten gab. Dieses wurde allerdings schon vor 3 Revisionsschritten behoben, was darauf deuten lässt, das die derzeit laufende Version mit 1TB RAID's kompatibel sein sollte.
Sicherheitshalber habe ich die Firmware's der Controller auf den aktuellsten Stand gebracht. Zwar ohne FakeRAID Support, aber unter Linux is das wegen mdadm sowieso nicht nötig.


EDIT
ok ... das hat das problem noch nicht ganz gelöst. Zwar sind jetzt wieder zugriffe möglich, aber dennoch kam es gelegentlich zu fehlern.

Interessanter weise hat eine einfache umstrukturierung der Disk's an den Controlern (verkreuzt [MD0:0=CTL0:0 MD0:1=CTL1:1 und MD1:0=CTL0:1 MD1:1=CTL1:0) geholfen. Und jetzt sind die Probleme verschwunden. Kurios!


EDIT
Problem gefunden und behoben.


MfG
TPM
_________________
[ WebFBC ][ OPS ][ ToOFlo ][ Wiemann.TV ]
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
Beiträge der letzten Zeit anzeigen:   
Neues Thema eröffnen   Neue Antwort erstellen    Das deutsche QBasic- und FreeBASIC-Forum Foren-Übersicht -> Computer-Forum Alle Zeiten sind GMT + 1 Stunde
Seite 1 von 1

 
Gehe zu:  
Du kannst keine Beiträge in dieses Forum schreiben.
Du kannst auf Beiträge in diesem Forum nicht antworten.
Du kannst deine Beiträge in diesem Forum nicht bearbeiten.
Du kannst deine Beiträge in diesem Forum nicht löschen.
Du kannst an Umfragen in diesem Forum nicht mitmachen.

 Impressum :: Datenschutz