0

This morning, when I arrived at work I found my calculation server was not responding: I ran some calcultations this week-end on it and this morning it did not want to respond. Screens stayed off and when I tried to connect on my computer via ssh, it did not respond.

I did an hard-reset on it and the computer restarted.

When I tried to acces to my RAID0 array (2disk), I discoverd auto-mount is no more working.

I tried to mount it manually, using sudo mount -a then:

mount: /DATA : impossible de lire le superbloc à l’adresse /dev/md126. (can not read superblock at the adresse /dev/md1126)

Here is my fstab. I have a nvme disk for the system and a raid0 for the data: cat /etc/fstab

# /etc/fstab: static file system information.

# Use 'blkid' to print the universally unique identifier for a

# device; this may be used with UUID= as a more robust way to name devices

# that works even if disks are added and removed. See fstab(5).

#

# / was on /dev/nvme0n1p2 during installation

UUID=1488f5bf-f88d-48b5-a5a0-6c590d4583fd / ext4 errors=remount-ro 0 1

# swap was on /dev/nvme0n1p1 during installation

UUID=666f87e9-ce39-4af5-b812-33a9746561fb none swap sw 0 0

/dev/disk/by-uuid/7a0700a4-ec4c-4192-a074-b3fd0f31aa75 /DATA auto nosuid,nodev,nofail,x-gvfs-show 0 0

I searched on internet how to fix it and found some commands that can provide some information:

sudo fdisk -l

Disque /dev/loop0 : 140 MiB, 146841600 octets, 286800 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop1 : 2,3 MiB, 2428928 octets, 4744 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop2 : 139,5 MiB, 146276352 octets, 285696 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop3 : 13 MiB, 13594624 octets, 26552 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop4 : 12,2 MiB, 12804096 octets, 25008 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop5 : 3,7 MiB, 3813376 octets, 7448 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop6 : 21 MiB, 22003712 octets, 42976 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop7 : 86,6 MiB, 90812416 octets, 177368 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/nvme0n1 : 477 GiB, 512110190592 octets, 1000215216 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets Type d'étiquette de disque : dos Identifiant de disque : 0x7dd11723

Périphérique Amorçage Début Fin Secteurs Taille Id Type /dev/nvme0n1p1 2048 63999999 63997952 30,5G 82 partition d'échange Linux / Solaris /dev/nvme0n1p2 * 64000000 1000214843 936214844 446,4G 83 Linux

Disque /dev/sdb : 1,8 TiB, 2000398934016 octets, 3907029168 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 4096 octets taille d'E/S (minimale / optimale) : 4096 octets / 4096 octets

Disque /dev/sda : 1,8 TiB, 2000398934016 octets, 3907029168 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 4096 octets taille d'E/S (minimale / optimale) : 4096 octets / 4096 octets

Disque /dev/md126 : 3,7 TiB, 4000792444928 octets, 7814047744 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 4096 octets taille d'E/S (minimale / optimale) : 16384 octets / 32768 octets

Disque /dev/loop8 : 21,6 MiB, 22609920 octets, 44160 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop9 : 3,3 MiB, 3411968 octets, 6664 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop10 : 86,6 MiB, 90828800 octets, 177400 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop11 : 1,6 MiB, 1691648 octets, 3304 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop12 : 140 MiB, 146841600 octets, 286800 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

Disque /dev/loop13 : 86,6 MiB, 90759168 octets, 177264 secteurs Unités : secteur de 1 × 512 = 512 octets Taille de secteur (logique / physique) : 512 octets / 512 octets taille d'E/S (minimale / optimale) : 512 octets / 512 octets

sudo mdadm --examine /dev/md126

mdadm: No md superblock detected on /dev/md126.

sudo mdadm --examine /dev/sda

/dev/sda: Magic : Intel Raid ISM Cfg Sig. Version : 1.3.00 Orig Family : f9cade7c Family : f9cade7c Generation : 0000001f Attributes : All supported UUID : 125118e9:35e1a9ca:35cfb5b8:7184edc1 Checksum : 84a08e50 correct MPB Sectors : 1 Disks : 2 RAID Devices : 1

Disk00 Serial : Z4Z38R88 State : active Id : 00000001 Usable Size : 3907024136 (1863.01 GiB 2000.40 GB)

[Volume1]: UUID : 9d14c84c:ee252990:552570fe:0a87621c RAID Level : 0 Members : 2 Slots : [UU] Failed disk : none This Slot : 0 Array Size : 7814047744 (3726.03 GiB 4000.79 GB) Per Dev Size : 3907024136 (1863.01 GiB 2000.40 GB) Sector Offset : 0 Num Stripes : 122094496 Chunk Size : 16 KiB Reserved : 0 Migrate State : idle Map State : normal Dirty State : clean

Disk01 Serial : Z4Z38SNS State : active Id : 00000002 Usable Size : 3907024136 (1863.01 GiB 2000.40 GB)

sudo mdadm --examine /dev/sdb

/dev/sdb: Magic : Intel Raid ISM Cfg Sig. Version : 1.3.00 Orig Family : f9cade7c Family : f9cade7c Generation : 0000001f Attributes : All supported UUID : 125118e9:35e1a9ca:35cfb5b8:7184edc1 Checksum : 84a08e50 correct MPB Sectors : 1 Disks : 2 RAID Devices : 1

Disk01 Serial : Z4Z38SNS State : active Id : 00000002 Usable Size : 3907024136 (1863.01 GiB 2000.40 GB)

[Volume1]: UUID : 9d14c84c:ee252990:552570fe:0a87621c RAID Level : 0 Members : 2 Slots : [UU] Failed disk : none This Slot : 1 Array Size : 7814047744 (3726.03 GiB 4000.79 GB) Per Dev Size : 3907024136 (1863.01 GiB 2000.40 GB) Sector Offset : 0 Num Stripes : 122094496 Chunk Size : 16 KiB Reserved : 0 Migrate State : idle Map State : normal Dirty State : clean

Disk00 Serial : Z4Z38R88 State : active Id : 00000001 Usable Size : 3907024136 (1863.01 GiB 2000.40 GB)

My raid disk, sda and sdb seem to be ok and not dead... The probleme seems to come from the md126 superblock

MY QUESTION IS: how can I repair/reconstruct my raid0 without loosing my data? Could you please help me?

(It seems I will have to use mdadm but I don't know how)

EDIT: more info cat /proc/mdstat

Personalities : [raid0] [linear] [multipath] [raid1] [raid6] [raid5] [raid4] [raid10] md126 : active raid0 sda[1] sdb[0] 3907023872 blocks super external:/md127/0 16k chunks md127 : inactive sdb1 sda0 5032 blocks super external:imsm unused devices:

  • This is precisely why professionals only use R0 for transient data that causes no problems if it's lost. Oh and this site is for professionals, so...you know. – Chopper3 May 28 '18 at 12:56
  • Adding to that, there's a relatively high chance of media failure across two 2TiB rotational drives. Any time there's a "blip" you risk losing the entire array or significantly damaging its contents. I certainly hope you have a backup. – Spooler May 29 '18 at 15:52
  • Restore from backup. No backup? No important data. – Zac67 May 29 '18 at 20:33

1 Answers1

1

How are you certain that your drives are okay? You'll need to read SMART data to determine that conclusively, as a status of good/bad isn't enough. You can also gather details of the overall the array via mdadm --detail /dev/md126 to get an overview.

Also, this is a RAID0. It is not intended to tolerate a device fault of any kind, even small localised ones that don't trigger the health status of the entire drive. Even a drive dropping from the array for a short time can destroy a RAID0. This node is generally paired with a backup, or used for data that is acceptable to lose all at once.

The thing to do is rebuild the array and restore from backup, or if you don't want to use an array with less integrity than a single disk, consider a different RAID level. RAID 10 works great with most patterns, can suffer the loss of two disks in a four disk array, and disks are cheap.

Checksumming filesystems and volume managers exist, such as btrfs and zfs, and those make efforts to ensure data integrity as well as tolerate device failures.

Spooler
  • 7,046
  • 18
  • 29