Verano, época de calor y cortes de luz. Si no disponemos de una fuente de energía eléctrica confiable, UPS de gran autonomía y generadores, nuestros discos lo sufren en grande. Y este fue el caso de uno de los discos en uno de mis servidores DELL PowerEdge, el cual, luego de uno de los lamentablemente frecuentes cortes de luz, quedó inutilizable. Afortunadamente (mentira, el trabajo de un sysadmin tiene poco que ver con la fortuna y mucho que ver con la planificación) era parte de un RAID 1, configuración de discos espejados, esquema tradicional para instalar el sistema operativo en servidores físicos (para datos se suelen utilizar otras configuraciones, como RAID 5 ó 10, con uno o más discos hot spare), por lo que no se ocasionaron pérdidas de datos. Pero sí un downtime importante, porque la controladora PERC H200 no fue capaz de inicializar el arreglo en modo degradado (utilizando un solo disco), tal vez debido a que fue un fallo de disco muy grave.



Esta situación me obligó a tener que acercarme físicamente, y lo más rápidamente posible, hasta la ubicación del servidor en cuestión (centro de cómputos donde se encuentra instalado), para remover el disco fallido y lograr que la controladora pueda iniciar el arreglo RAID 1 en modo degradado. A riesgo, claro está, de que se descomponga el segundo disco y se pierdan datos, pero con la premisa de recomponer rápidamente el servicio mientras llega el disco de repuesto.

Diagnosticando el disco fallido

Aparentemente se trata de un fallo muy grave, ya que al conectarlo en otro sistema GNU/Linux se observa en el log /var/log/messages que es detectado como de gran tamaño (como si tuviese una capacidad superior a los 2,19 TB):

Dec 31 16:06:05 vaio kernel: [ 1717.513605] scsi 8:0:0:0: Direct-Access     WDC WD50 03ABYX-
18WERA0        PQ: 0 ANSI: 2 CCS
Dec 31 16:06:05 vaio kernel: [ 1717.582867] sd 8:0:0:0: [sdb] Very big device. Trying to use READ CAPACITY(16).
Dec 31 16:06:05 vaio kernel: [ 1717.583228] sd 8:0:0:0: [sdb] Using 0xffffffff as device size
Dec 31 16:06:05 vaio kernel: [ 1717.583235] sd 8:0:0:0: [sdb] 4294967296 512-byte logical blocks: (2.19 TB/2.00 TiB)
Dec 31 16:06:05 vaio kernel: [ 1717.583417] sd 8:0:0:0: [sdb] Write Protect is off
Dec 31 16:06:05 vaio kernel: [ 1717.584010] sd 8:0:0:0: [sdb] Very big device. Trying to use READ CAPACITY(16).
Dec 31 16:06:05 vaio kernel: [ 1717.584325] sd 8:0:0:0: [sdb] Using 0xffffffff as device size
Dec 31 16:06:05 vaio kernel: [ 1717.585016] sd 8:0:0:0: [sdb] Invalid command failure

(Sí, son las 16:06 del 31 de diciembre de 2014 y estoy pelotudeando en casa con el disco de un servidor).

Lo mismo sucede cuando se intenta diagnosticar con la herramienta TestDisk. Lo detecta como de 2 TB de capacidad, cuando se trata de un disco de 500 GB:

TestDisk 7.0-WIP, Data Recovery Utility, December 2014
Christophe GRENIER <grenier@cgsecurity.org>
http://www.cgsecurity.org

  TestDisk is free software, and
comes with ABSOLUTELY NO WARRANTY.

Select a media (use Arrow keys, then press Enter):
>Disk /dev/sdb - 2199 GB / 2048 GiB - WDC WD50 03ABYX-18WERA0

Por ello la controladora no fue capaz de inicializar el arreglo en modo degradado.

Intenté borrar los primeros bloques para tratar de crear una tabla de particiones sin éxito:

16:56 root@vaio ~ # dd bs=1M count=1 if=/dev/zero of=/dev/sdb 
1+0 records in
1+0 records out
1048576 bytes (1.0 MB) copied, 0.000785012 s, 1.3 GB/s
16:58 root@vaio ~ # fdisk /dev/sdb
Welcome to fdisk (util-linux 2.21.2).

Changes will remain in memory only, until you decide to write them.
Be careful before using the write command.

fdisk: unable to read /dev/sdb: Input/output error

Finalmente, udisks reporta que no se disponen de datos S.M.A.R.T.:

17:08 root@vaio ~ # udisks --show-info /dev/sdb
Showing information for /org/freedesktop/UDisks/devices/sdb
  native-path:                 /sys/devices/pci0000:00/0000:00:14.0/usb3/3-4/3-4:1.0/host8/target8:0:0/8:0:0:0/block/sdb
  device:                      8:16
  device-file:                 /dev/sdb
    presentation:              /dev/sdb
    by-id:                     /dev/disk/by-id/usb-WDC_WD50_03ABYX-18WERA0_152D203380B6-0:0
    by-path:                   /dev/disk/by-path/pci-0000:00:14.0-usb-0:4:1.0-scsi-0:0:0:0
  detected at:                 Wed 31 Dec 2014 04:06:05 PM ART
  system internal:             0
  removable:                   0
  has media:                   1 (detected at Wed 31 Dec 2014 04:06:05 PM ART)
    detects change:            0
    detection by polling:      0
    detection inhibitable:     0
    detection inhibited:       0
  is read only:                0
  is mounted:                  0
  mount paths:             
  mounted by uid:              0
  presentation hide:           0
  presentation nopolicy:       0
  presentation name:           
  presentation icon:           
  automount hint:              
  size:                        2199023255552
  block size:                  512
  job underway:                no
  usage:                       
  type:                        
  version:                     
  uuid:                        
  label:                       
  drive:
    vendor:                    WDC WD50
    model:                     03ABYX-18WERA0
    revision:                  0100
    serial:                    152D203380B6
    WWN:                       
    detachable:                1
    can spindown:              0
    rotational media:          Yes, unknown rate
    write-cache:               unknown
    ejectable:                 0
    adapter:                   Unknown
    ports:
    similar devices:
    media:                     
      compat:                 
    interface:                 usb
    if speed:                  480000000 bits/s
    ATA SMART:                 not available

Que no estén disponibles los datos S.M.A.R.T. es un síntoma muy sospechoso, sin contar los ruidos extraños que hace el disco constantemente, lo que da la pauta de que se ha producido algún daño en la electrónica del mismo.

En definitiva, un bonito pisapapeles.

Instalando el disco de repuesto en el RAID 1

El servidor en cuestión corre CentOS 6 y cuenta con el software DELL OpenManage Server Administrator. OpenManage Server Administrator (OMSA) permite gestionar servidores DELL utilizando una interfaz Web (implementa un servidor HTTP) o desde línea de comandos. Esta herramienta permite acceder a todos los componentes de hardware del servidor, ya sea para configurarlos como para obtener reportes de estado. Utilizando las aplicaciones omreport y omconfig es posible obtener y modificar la configuración de la controladora de discos.

Como interactúa con hardware específico de DELL, se trata de software cerrado y sólo disponible para sistemas GNU/Linux basados en Red Hat y SUSE. Su instalación es sencilla y está documentada en el repositorio oficial para GNU/Linux. Como parte de la misma, agrega un repositorio oficial de DELL en el gestor de paquetes (dell-omsa-indep).

Detectar cuál de los dos discos en el RAID 1 estaba fallando fue sencillo. Sólo necesité comprobar el estado de las luces testigos en el panel del servidor. También es posible utilizar la técnica de prueba y error: sacar uno de los discos y reiniciar; si inicia, el disco fallido es el que sacamos, sino es el otro. En el peor de los casos habrán fallado ambos, en tal situación sólo será posible recuperar desde un backup.

Luego de sacar el disco fallado y comprobar que el servidor inicie correctamente, procedí a apagar nuevamente el servidor e instalar un nuevo disco de reemplazo. Es recomendable instalar un disco exactamente igual, aunque es posible instalar cualquiera de tamaño igual o superior. Se debe tener en cuenta que instalar un disco de características diferentes puede afectar negativamente al rendimiento del arreglo. En mi caso no conseguí un disco idéntico, aunque sí uno de idéntica geometría pero con menor tamaño de caché y mayor ancho de banda, Lo cual no supuso problema alguno.

Al iniciar el sistema con el nuevo disco, comprobé que durante la inicialización del arreglo la controladora lo mantuvo en estado degradado, lo cual me dio la pauta de que no reconoció automáticamente al nuevo disco como reemplazo.

La herramienta omreport permite obtener información del hardware del sistema, particularmente estaba interesado en obtener información de la controladora y del arreglo. Para obtener una lista de comandos se debe especificar la opción -? (tradicionalmente utilizado para obtener ayuda en sistemas Windows):

[root@centos6 ~]# omreport -?

omreport         Reports component properties.

The available command(s) are:

Command          Description
about            Product and version properties.
licenses         Displays the digital licenses of the installed hardware devices.
preferences      Report system preferences.
system           System component properties.
chassis          Chassis component properties.
storage          Display storage component properties.

Usage: omreport <command...> [name=value...] ... [option...]

Valid command line options are:

-?               Print available command(s) or command help.
-fmt <lst|tbl|ssv|cdv|xml> Format for output results, default is lst.
                           Where: lst  List format.
                                  tbl  Table format.
                                  ssv  Semicolon separated format.
                                  cdv  Custom delimiter separated format.
                                  xml  Raw XML format.
-outc <file>     Redirect output to file, delete old if exists.
  OR
-outa <file>     Redirect output to file, append to old if exists.
  OR
Output may also be redirected using Operating System facilities (e.g. |more).

Los comandos disponibles relacionados al almacenamiento (storage) son los siguientes:

[root@centos6 ~]# omreport storage -?

storage          Display storage component properties.

The available command(s) are:

Command          Description
adisk            Display array disk(s) properties. DEPRECATED: please use pdisk
pdisk            Display physical disk(s) properties.
vdisk            Display virtual disk(s) properties.
controller       Display controller(s) properties.
enclosure        Display enclosure properties.
battery          Display battery properties.
globalinfo       Display global storage properties.
connector        Display connector properties.
cachecade        Display cachecade(s) properties.
pciessd          Display PCIeSSD subsystem properties.
fluidcache       Display Fluid Cache properties and the associated fluid cachedisks.
fluidcachepool   Display Fluid CachePool properties.
partition        Display Partition details for the specified controller and vdisk.
fluidcachedisk   Display Fluidcache disks properties.
tape             Display Tape Drive(s) properties.

Usage: omreport <command...> [name=value...] ... [option...]

Valid command line options are:

-?               Print available command(s) or command help.
-fmt <lst|tbl|ssv|cdv|xml> Format for output results, default is lst.
                           Where: lst  List format.
                                  tbl  Table format.
                                  ssv  Semicolon separated format.
                                  cdv  Custom delimiter separated format.
                                  xml  Raw XML format.
-outc <file>     Redirect output to file, delete old if exists.
  OR
-outa <file>     Redirect output to file, append to old if exists.
  OR
Output may also be redirected using Operating System facilities (e.g. |more).

Para obtener información de un disco físico se requiere especificar una controladora:

[root@centos6 ~]# omreport storage pdisk -?
pdisk            Display physical disk(s) properties.

Required parameters are:
controller=id               All physical disks are displayed

Optional parameters are:
vdisk=id                    All physical disks that comprise the indicated
                            virtual disk
cachecade=id            All physical disks that comprise the indicated
                            cachecade(s)
connector=id                  All physical disks on the indicated connector
pdisk=<PDISKID>               The indicated physical disk
    where PDISKID=<connector:enclosureID:portID | connector:targetID>


Para obtener el ID de la controladora, ejecutar omreport storage controller:

[root@centos6 ~]# omreport storage controller
 Controller  PERC H200 Adapter (Slot 2)

Controllers
ID                                            : 0
Status                                        : Non-Critical
Name                                          : PERC H200 Adapter
Slot ID                                       : PCI Slot 2
State                                         : Degraded
Firmware Version                              : 07.03.05.00
Latest Available Firmware Version             : 07.03.06.00
Driver Version                                : 15.101.00.00
Minimum Required Driver Version               : Not Applicable
Storport Driver Version                       : Not Applicable
Minimum Required Storport Driver Version      : Not Applicable
Number of Connectors                          : 2
Rebuild Rate                                  : Not Applicable
BGI Rate                                      : Not Applicable
Check Consistency Rate                        : Not Applicable
Reconstruct Rate                              : Not Applicable
Alarm State                                   : Not Applicable
Cluster Mode                                  : Not Applicable
SCSI Initiator ID                             : Not Applicable
Cache Memory Size                             : Not Applicable
Patrol Read Mode                              : Not Applicable
Patrol Read State                             : Not Applicable
Patrol Read Rate                              : Not Applicable
Patrol Read Iterations                        : Not Applicable
Abort Check Consistency on Error              : Not Applicable
Allow Revertible Hot Spare and Replace Member : Not Applicable
Load Balance                                  : Not Applicable
Auto Replace Member on Predictive Failure     : Not Applicable
Redundant Path view                           : Not Applicable
CacheCade Capable                             : Not Applicable
Persistent Hot Spare                          : Not Applicable
Encryption Capable                            : Not Applicable
Encryption Key Present                        : Not Applicable
Encryption Mode                               : Not Applicable
Preserved Cache                               : Not Applicable
T10 Protection Information Capable            : No

Se observa que hay una única controladora, con ID igual a 0. Conociendo el identificador de la controladora es posible determinar en qué estado está el disco en el slot 0 (el cual reemplacé):

[root@centos6 ~]# omreport storage pdisk controller=0
List of Physical Disks on Controller PERC H200 Adapter (Slot 2)

Controller PERC H200 Adapter (Slot 2)
ID                              : 0:0
Status                          : Non-Critical
Name                            : Physical Disk 0:0
State                           : Ready
Power Status                    : Not Applicable
Bus Protocol                    : SATA
Media                           : HDD
Part of Cache Pool              : Not Applicable
Remaining Rated Write Endurance : Not Applicable
Failure Predicted               : No
Revision                        : 05.01D05
Driver Version                  : Not Applicable
Model Number                    : Not Applicable
T10 PI Capable                  : No
Certified                       : No
Encryption Capable              : No
Encrypted                       : Not Applicable
Progress                        : Not Applicable
Mirror Set ID                   : Not Applicable
Capacity                        : 465.25 GB (499558383616 bytes)
Used RAID Disk Space            : 0.00 GB (0 bytes)
Available RAID Disk Space       : 465.25 GB (499558383616 bytes)
Hot Spare                       : No
Vendor ID                       : 
Product ID                      : WDC WD5002AALX-32Z3A0
Serial No.                      : WD-WCATR9568484
Part Number                     : Not Available
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : Not Available
PCIe Maximum Link Width         : Not Applicable
PCIe Negotiated Link Width      : Not Applicable
Sector Size                     : 512B
Device Write Cache              : Not Applicable
Manufacture Day                 : Not Available
Manufacture Week                : Not Available
Manufacture Year                : Not Available
SAS Address                     : 4433221107000000

ID                              : 0:1
Status                          : Ok
Name                            : Physical Disk 0:1
State                           : Online
Power Status                    : Not Applicable
Bus Protocol                    : SATA
Media                           : HDD
Part of Cache Pool              : Not Applicable
Remaining Rated Write Endurance : Not Applicable
Failure Predicted               : No
Revision                        : PA07
Driver Version                  : Not Applicable
Model Number                    : Not Applicable
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Encrypted                       : Not Applicable
Progress                        : Not Applicable
Mirror Set ID                   : Not Applicable
Capacity                        : 465.25 GB (499558383616 bytes)
Used RAID Disk Space            : 465.25 GB (499558383616 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST500NM0011
Serial No.                      : Z1M10AFV
Part Number                     : TH0C3YJM212332AF00GEA01
Negotiated Speed                : 3.00 Gbps
Capable Speed                   : Not Available
PCIe Maximum Link Width         : Not Applicable
PCIe Negotiated Link Width      : Not Applicable
Sector Size                     : 512B
Device Write Cache              : Not Applicable
Manufacture Day                 : Not Available
Manufacture Week                : Not Available
Manufacture Year                : Not Available
SAS Address                     : 4433221106000000

Notar que el ID del disco en el slot 0 está conformado por el ID de la controladora junto con el ID del slot. El estado Ready indica que el disco está listo para ser utilizado, pero por alguna razón la controladora no ha comenzado el proceso de reconstrucción del mismo (espejado).

Por otro lado, el arreglo permanece en estado degradado (con un disco menos):

[root@centos6 ~]# omreport storage vdisk
List of Virtual Disks in the System

Controller PERC H200 Adapter (Slot 2)
ID                                : 0
Status                            : Non-Critical
Name                              : Virtual Disk 0
State                             : Degraded
Hot Spare Policy violated         : Not Assigned
Encrypted                         : Not Applicable
Layout                            : RAID-1
Size                              : 465.25 GB (499558383616 bytes)
T10 Protection Information Status : No
Associated Fluid Cache State      : Not Applicable
Device Name                       : /dev/sda
Bus Protocol                      : SATA
Media                             : HDD
Read Policy                       : Not Applicable
Write Policy                      : Not Applicable
Cache Policy                      : Not Applicable
Stripe Element Size               : 64 KB
Disk Cache Policy                 : Disabled

Utilizando la herramienta omconfig es necesario indicarle de alguna forma a la controladora que comience a reconstruir el arreglo utilizando el nuevo disco. Los comandos de omconfig son similares a los de omreport:

[root@centos6 ~]# omconfig -?

omconfig         Configures component properties.

The available command(s) are:

Command          Description
about            Product and version properties.
preferences      Set system preferences.
system           Set system properties.
chassis          Set chassis component properties.
storage          Set storage component properties.

Usage: omconfig <command...> [name=value...] ... [option...]

Valid command line options are:

-?               Print available command(s) or command help.
-fmt <lst|xml>   Format for output results, default is lst.
                     Where: lst  List format.
                            xml  Raw XML format.
-outc <file>     Redirect output to file, delete old if exists.
  OR
-outa <file>     Redirect output to file, append to old if exists.
  OR
Output may also be redirected using Operating System facilities (e.g. |more).

Los comandos relacionados al almacenamiento son los siguientes:

[root@centos6 ~]# omconfig storage -?

storage          Set storage component properties.

The available command(s) are:

Command          Description
adisk            Supports array disk configuration commands. DEPRECATED: please use pdisk
pdisk            Supports physical disk configuration commands.
vdisk            Supports virtual disk configuration commands.
controller       Supports controller configuration commands.
enclosure        Supports enclosure configuration commands.
battery          Supports battery configuration commands.
globalinfo       Supports global storage configuration commands.
connector        Supports connector configuration commands.
cachecade        Supports cachecade(s) configuration commands.
pciessd          Supports pciessd device configuration commands.
fluidcache       Supports fluidcache configuration commands.
partition        Supports partition configuration commands.
fluidcachedisk   Supports fluid cached disk configuration commands.

Usage: omconfig <command...> [name=value...] ... [option...]

Valid command line options are:

-?               Print available command(s) or command help.
-fmt <lst|xml>   Format for output results, default is lst.
                     Where: lst  List format.
                            xml  Raw XML format.
-outc <file>     Redirect output to file, delete old if exists.
  OR
-outa <file>     Redirect output to file, append to old if exists.
  OR
Output may also be redirected using Operating System facilities (e.g. |more).

Es posible ejecutar las siguientes acciones sobre los discos físicos:

[root@centos6 ~]# omconfig storage pdisk -?
pdisk            Supports physical disk configuration commands. 

action=blink
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
blinks the given physical disk

action=unblink
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
unblinks the given physical disk

action=remove
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
prepares the physical disk for removal

action=instantsecureerase
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
erases the given SED. PCIe-SSD also use the same command for the full initialization.

action=initialize
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
initializes the given physical disk

action=offline
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
offlines the given physical disk

action=online
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
onlines the given physical disk

action=assignglobalhotspare
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
        assign=<yes | no>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
assigns/unassigns the given physical disk as global hot spare.
Note : The input physical disk can only protect virtual disks of same bus protocol, media type, sector size, T10 Protection Information capability, and encryption capability.   

action=rebuild
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
rebuilds the given physical disk

action=cancelrebuild
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
cancels rebuild on the given physical disk

action=cancelreplacemember
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
cancels replace member operation on the given physical disk

action=removedeadsegments
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
removes the disk space occupied by a dead disk segment

action=clear
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
clears the given physical disk

action=cancelclear
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
cancels clear operation on the given physical disk

action=convertraidtononraid
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
converts RAID to Non-RAID on the given physical disk

action=convertnonraidtoraid
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
converts Non-RAID to RAID on the given physical disk

action=enabledevicewritecache
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
enables Write Cache on the given physical disk for the PCIe-SSD controllers

action=disabledevicewritecache
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
disables Write Cache on the given physical disk for the PCIe-SSD controllers

action=exportlog
    Required parameters are:
        controller=id 
        pdisk=<PDISKID>
    where PDISKID=<connector:enclosureID:portID | connector:targetID>
exports the PCIe-SSD device log to windows folder on Windows and /var/log on Linux. Depending on the PCIeSSD device, the log file name will be PCIeSSD_<serial no>_<timestamp>.log where <serial no> is the serial number of the device and timestamp is month, day, hour, minute and second during which the command is executed.


Lo primero que se me ocurrió fue ejecutar, sin éxito, omconfig storage pdisk action=rebuild controller=0 pdisk=0:0 para tratar de reconstruir el arreglo utilizando el nuevo disco. Por alguna razón la controladora me impidió realizar tal acción (sospecho que la controladora no estaba detectando al nuevo disco como parte del arreglo RAID 1 degradado, pero en ese momento no me di cuenta de tal situación). Por lo tanto, lo siguiente que intenté fue asignar al nuevo disco como hot spare global. Es decir un disco de reemplazo (en caliente) disponible para cualquier arreglo en la misma controladora. Para ello ejecuté omconfig storage pdisk action=assignglobalhotspare controller=0 pdisk=0:0 assign=yes:

[root@centos6 ~]# omconfig storage pdisk action=assignglobalhotspare controller=0 pdisk=0:0 assign=yes
Command successful!

Al ejecutar esta acción (poner al nuevo disco disponible como reemplazo para cualquier arreglo), la controladora comenzó inmediatamente el proceso de rebuilding (reconstrucción):

[root@centos6 ~]# omreport storage pdisk controller=0
List of Physical Disks on Controller PERC H200 Adapter (Slot 2)

Controller PERC H200 Adapter (Slot 2)
ID                              : 0:0
Status                          : Non-Critical
Name                            : Physical Disk 0:0
State                           : Rebuilding
Power Status                    : Not Applicable
Bus Protocol                    : SATA
Media                           : HDD
Part of Cache Pool              : Not Applicable
Remaining Rated Write Endurance : Not Applicable
Failure Predicted               : No
Revision                        : 05.01D05
Driver Version                  : Not Applicable
Model Number                    : Not Applicable
T10 PI Capable                  : No
Certified                       : No
Encryption Capable              : No
Encrypted                       : Not Applicable
Progress                        : Not Applicable
Mirror Set ID                   : Not Applicable
Capacity                        : 465.25 GB (499558383616 bytes)
Used RAID Disk Space            : 465.25 GB (499558383616 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : 
Product ID                      : WDC WD5002AALX-32Z3A0
Serial No.                      : WD-WCATR9568484
Part Number                     : Not Available
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : Not Available
PCIe Maximum Link Width         : Not Applicable
PCIe Negotiated Link Width      : Not Applicable
Sector Size                     : 512B
Device Write Cache              : Not Applicable
Manufacture Day                 : Not Available
Manufacture Week                : Not Available
Manufacture Year                : Not Available
SAS Address                     : 4433221107000000

ID                              : 0:1
Status                          : Ok
Name                            : Physical Disk 0:1
State                           : Online
Power Status                    : Not Applicable
Bus Protocol                    : SATA
Media                           : HDD
Part of Cache Pool              : Not Applicable
Remaining Rated Write Endurance : Not Applicable
Failure Predicted               : No
Revision                        : PA07
Driver Version                  : Not Applicable
Model Number                    : Not Applicable
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Encrypted                       : Not Applicable
Progress                        : Not Applicable
Mirror Set ID                   : Not Applicable
Capacity                        : 465.25 GB (499558383616 bytes)
Used RAID Disk Space            : 465.25 GB (499558383616 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST500NM0011
Serial No.                      : Z1M10AFV
Part Number                     : TH0C3YJM212332AF00GEA01
Negotiated Speed                : 3.00 Gbps
Capable Speed                   : Not Available
PCIe Maximum Link Width         : Not Applicable
PCIe Negotiated Link Width      : Not Applicable
Sector Size                     : 512B
Device Write Cache              : Not Applicable
Manufacture Day                 : Not Available
Manufacture Week                : Not Available
Manufacture Year                : Not Available
SAS Address                     : 4433221106000000

Notar que el estado del disco cambia a "Rebuilding". El proceso de reconstrucción es muy lento y puede demorar muchas horas (dependiendo del uso y del tamaño de los discos), sobre todo si el servidor está en funcionamiento (mientras se dispone de los discos, en paralelo se reconstruye el nuevo disco, actualizando los cambios a medida que van ocurriendo).

El campo "Progress" indica el porcentaje de reconstrucción.

Suele ocurrir que OMSA no refresca el porcentaje de reconstrucción. En tal caso es posible reiniciar los servicios para forzar a que lean datos frescos desde la controladora:

[root@centos6 ~]# srvadmin-services.sh restart

Shutting down DSM SA Shared Services:                      [  OK  ]


Shutting down DSM SA Connection Service:                   [  OK  ]


Stopping Systems Management Data Engine:
Stopping dsm_sa_snmpd:                                     [  OK  ]
Stopping dsm_sa_eventmgrd:                                 [  OK  ]
Stopping dsm_sa_datamgrd:                                  [  OK  ]
Stopping Systems Management Device Drivers:
Stopping dell_rbu:                                         [  OK  ]
Starting Systems Management Device Drivers:
Starting dell_rbu:                                         [  OK  ]
Starting ipmi driver: Already started                      [  OK  ]
Starting Systems Management Data Engine:
Starting dsm_sa_datamgrd:                                  [  OK  ]
Starting dsm_sa_eventmgrd:                                 [  OK  ]
Starting dsm_sa_snmpd:                                     [  OK  ]
Starting DSM SA Shared Services:                           [  OK  ]

Starting DSM SA Connection Service:                        [  OK  ]

Luego de muchas horas avanzó un 45%:

[root@centos6 ~]# omreport storage pdisk controller=0List of Physical Disks on Controller PERC H200 Adapter (Slot 2)

Controller PERC H200 Adapter (Slot 2)
ID                              : 0:0
Status                          : Non-Critical
Name                            : Physical Disk 0:0
State                           : Rebuilding
Power Status                    : Not Applicable
Bus Protocol                    : SATA
Media                           : HDD
Part of Cache Pool              : Not Applicable
Remaining Rated Write Endurance : Not Applicable
Failure Predicted               : No
Revision                        : 05.01D05
Driver Version                  : Not Applicable
Model Number                    : Not Applicable
T10 PI Capable                  : No
Certified                       : No
Encryption Capable              : No
Encrypted                       : Not Applicable
Progress                        : 45% complete
Mirror Set ID                   : Not Applicable
Capacity                        : 465.25 GB (499558383616 bytes)
Used RAID Disk Space            : 465.25 GB (499558383616 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : 
Product ID                      : WDC WD5002AALX-32Z3A0
Serial No.                      : WD-WCATR9568484
Part Number                     : Not Available
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : Not Available
PCIe Maximum Link Width         : Not Applicable
PCIe Negotiated Link Width      : Not Applicable
Sector Size                     : 512B
Device Write Cache              : Not Applicable
Manufacture Day                 : Not Available
Manufacture Week                : Not Available
Manufacture Year                : Not Available
SAS Address                     : 4433221107000000

ID                              : 0:1
Status                          : Ok
Name                            : Physical Disk 0:1
State                           : Online
Power Status                    : Not Applicable
Bus Protocol                    : SATA
Media                           : HDD
Part of Cache Pool              : Not Applicable
Remaining Rated Write Endurance : Not Applicable
Failure Predicted               : No
Revision                        : PA07
Driver Version                  : Not Applicable
Model Number                    : Not Applicable
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Encrypted                       : Not Applicable
Progress                        : Not Applicable
Mirror Set ID                   : Not Applicable
Capacity                        : 465.25 GB (499558383616 bytes)
Used RAID Disk Space            : 465.25 GB (499558383616 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST500NM0011
Serial No.                      : Z1M10AFV
Part Number                     : TH0C3YJM212332AF00GEA01
Negotiated Speed                : 3.00 Gbps
Capable Speed                   : Not Available
PCIe Maximum Link Width         : Not Applicable
PCIe Negotiated Link Width      : Not Applicable
Sector Size                     : 512B
Device Write Cache              : Not Applicable
Manufacture Day                 : Not Available
Manufacture Week                : Not Available
Manufacture Year                : Not Available
SAS Address                     : 4433221106000000

Es importante contar con arreglos de discos, incluso en los sistemas más insignificantes, para evitar dolores de cabeza. Uno desconoce la importancia de un sistema hasta que deja de prestar servicios. Incluso parece aumentar cuando un servicio no está disponible (muchas veces para los usuarios un servicio se convierte en indispensable desde el momento en que deja de estar en línea). Por ello los sysadmins adoramos al Dios uptime.

Referencias

OpenManage Server Administrator

OpenManage Server Administrator - OMSA

Using the Storage Management Service

Dell Blade Server Replace Bad Disk

Replace dead / faulty drive in Dell PERC RAID array

Dell OpenManage Server Administrator Version 6.5 - Command Line Interface Guide


Tal vez pueda interesarte


Compartí este artículo