Verano, época de calor y cortes de luz. Si no disponemos de una fuente de energía eléctrica confiable, UPS de gran autonomía y generadores, nuestros discos lo sufren en grande. Y este fue el caso de uno de los discos en uno de mis servidores DELL PowerEdge, el cual, luego de uno de los lamentablemente frecuentes cortes de luz, quedó inutilizable. Afortunadamente (mentira, el trabajo de un sysadmin tiene poco que ver con la fortuna y mucho que ver con la planificación) era parte de un RAID 1, configuración de discos espejados, esquema tradicional para instalar el sistema operativo en servidores físicos (para datos se suelen utilizar otras configuraciones, como RAID 5 ó 10, con uno o más discos hot spare), por lo que no se ocasionaron pérdidas de datos. Pero sí un downtime importante, porque la controladora PERC H200 no fue capaz de inicializar el arreglo en modo degradado (utilizando un solo disco), tal vez debido a que fue un fallo de disco muy grave.
Esta situación me obligó a tener que acercarme físicamente, y lo más rápidamente posible, hasta la ubicación del servidor en cuestión (centro de cómputos donde se encuentra instalado), para remover el disco fallido y lograr que la controladora pueda iniciar el arreglo RAID 1 en modo degradado. A riesgo, claro está, de que se descomponga el segundo disco y se pierdan datos, pero con la premisa de recomponer rápidamente el servicio mientras llega el disco de repuesto.
Diagnosticando el disco fallido
Aparentemente se trata de un fallo muy grave, ya que al conectarlo en otro sistema GNU/Linux se observa en el log /var/log/messages
que es detectado como de gran tamaño (como si tuviese una capacidad superior a los 2,19 TB):
Dec 31 16:06:05 vaio kernel: [ 1717.513605] scsi 8:0:0:0: Direct-Access WDC WD50 03ABYX- 18WERA0 PQ: 0 ANSI: 2 CCS Dec 31 16:06:05 vaio kernel: [ 1717.582867] sd 8:0:0:0: [sdb] Very big device. Trying to use READ CAPACITY(16). Dec 31 16:06:05 vaio kernel: [ 1717.583228] sd 8:0:0:0: [sdb] Using 0xffffffff as device size Dec 31 16:06:05 vaio kernel: [ 1717.583235] sd 8:0:0:0: [sdb] 4294967296 512-byte logical blocks: (2.19 TB/2.00 TiB) Dec 31 16:06:05 vaio kernel: [ 1717.583417] sd 8:0:0:0: [sdb] Write Protect is off Dec 31 16:06:05 vaio kernel: [ 1717.584010] sd 8:0:0:0: [sdb] Very big device. Trying to use READ CAPACITY(16). Dec 31 16:06:05 vaio kernel: [ 1717.584325] sd 8:0:0:0: [sdb] Using 0xffffffff as device size Dec 31 16:06:05 vaio kernel: [ 1717.585016] sd 8:0:0:0: [sdb] Invalid command failure
(Sí, son las 16:06 del 31 de diciembre de 2014 y estoy pelotudeando en casa con el disco de un servidor).
Lo mismo sucede cuando se intenta diagnosticar con la herramienta TestDisk. Lo detecta como de 2 TB de capacidad, cuando se trata de un disco de 500 GB:
TestDisk 7.0-WIP, Data Recovery Utility, December 2014 Christophe GRENIER <grenier@cgsecurity.org> http://www.cgsecurity.org TestDisk is free software, and comes with ABSOLUTELY NO WARRANTY. Select a media (use Arrow keys, then press Enter): >Disk /dev/sdb - 2199 GB / 2048 GiB - WDC WD50 03ABYX-18WERA0
Por ello la controladora no fue capaz de inicializar el arreglo en modo degradado.
Intenté borrar los primeros bloques para tratar de crear una tabla de particiones sin éxito:
16:56 root@vaio ~ # dd bs=1M count=1 if=/dev/zero of=/dev/sdb 1+0 records in 1+0 records out 1048576 bytes (1.0 MB) copied, 0.000785012 s, 1.3 GB/s
16:58 root@vaio ~ # fdisk /dev/sdb Welcome to fdisk (util-linux 2.21.2). Changes will remain in memory only, until you decide to write them. Be careful before using the write command. fdisk: unable to read /dev/sdb: Input/output error
Finalmente, udisks
reporta que no se disponen de datos S.M.A.R.T.:
17:08 root@vaio ~ # udisks --show-info /dev/sdb Showing information for /org/freedesktop/UDisks/devices/sdb native-path: /sys/devices/pci0000:00/0000:00:14.0/usb3/3-4/3-4:1.0/host8/target8:0:0/8:0:0:0/block/sdb device: 8:16 device-file: /dev/sdb presentation: /dev/sdb by-id: /dev/disk/by-id/usb-WDC_WD50_03ABYX-18WERA0_152D203380B6-0:0 by-path: /dev/disk/by-path/pci-0000:00:14.0-usb-0:4:1.0-scsi-0:0:0:0 detected at: Wed 31 Dec 2014 04:06:05 PM ART system internal: 0 removable: 0 has media: 1 (detected at Wed 31 Dec 2014 04:06:05 PM ART) detects change: 0 detection by polling: 0 detection inhibitable: 0 detection inhibited: 0 is read only: 0 is mounted: 0 mount paths: mounted by uid: 0 presentation hide: 0 presentation nopolicy: 0 presentation name: presentation icon: automount hint: size: 2199023255552 block size: 512 job underway: no usage: type: version: uuid: label: drive: vendor: WDC WD50 model: 03ABYX-18WERA0 revision: 0100 serial: 152D203380B6 WWN: detachable: 1 can spindown: 0 rotational media: Yes, unknown rate write-cache: unknown ejectable: 0 adapter: Unknown ports: similar devices: media: compat: interface: usb if speed: 480000000 bits/s ATA SMART: not available
Que no estén disponibles los datos S.M.A.R.T. es un síntoma muy sospechoso, sin contar los ruidos extraños que hace el disco constantemente, lo que da la pauta de que se ha producido algún daño en la electrónica del mismo.
En definitiva, un bonito pisapapeles.
Instalando el disco de repuesto en el RAID 1
El servidor en cuestión corre CentOS 6 y cuenta con el software DELL OpenManage Server Administrator. OpenManage Server Administrator (OMSA) permite gestionar servidores DELL utilizando una interfaz Web (implementa un servidor HTTP) o desde línea de comandos. Esta herramienta permite acceder a todos los componentes de hardware del servidor, ya sea para configurarlos como para obtener reportes de estado. Utilizando las aplicaciones omreport
y omconfig
es posible obtener y modificar la configuración de la controladora de discos.
Como interactúa con hardware específico de DELL, se trata de software cerrado y sólo disponible para sistemas GNU/Linux basados en Red Hat y SUSE. Su instalación es sencilla y está documentada en el repositorio oficial para GNU/Linux. Como parte de la misma, agrega un repositorio oficial de DELL en el gestor de paquetes (dell-omsa-indep
).
Detectar cuál de los dos discos en el RAID 1 estaba fallando fue sencillo. Sólo necesité comprobar el estado de las luces testigos en el panel del servidor. También es posible utilizar la técnica de prueba y error: sacar uno de los discos y reiniciar; si inicia, el disco fallido es el que sacamos, sino es el otro. En el peor de los casos habrán fallado ambos, en tal situación sólo será posible recuperar desde un backup.
Luego de sacar el disco fallado y comprobar que el servidor inicie correctamente, procedí a apagar nuevamente el servidor e instalar un nuevo disco de reemplazo. Es recomendable instalar un disco exactamente igual, aunque es posible instalar cualquiera de tamaño igual o superior. Se debe tener en cuenta que instalar un disco de características diferentes puede afectar negativamente al rendimiento del arreglo. En mi caso no conseguí un disco idéntico, aunque sí uno de idéntica geometría pero con menor tamaño de caché y mayor ancho de banda, Lo cual no supuso problema alguno.
Al iniciar el sistema con el nuevo disco, comprobé que durante la inicialización del arreglo la controladora lo mantuvo en estado degradado, lo cual me dio la pauta de que no reconoció automáticamente al nuevo disco como reemplazo.
La herramienta omreport
permite obtener información del hardware del sistema, particularmente estaba interesado en obtener información de la controladora y del arreglo. Para obtener una lista de comandos se debe especificar la opción -?
(tradicionalmente utilizado para obtener ayuda en sistemas Windows):
[root@centos6 ~]# omreport -? omreport Reports component properties. The available command(s) are: Command Description about Product and version properties. licenses Displays the digital licenses of the installed hardware devices. preferences Report system preferences. system System component properties. chassis Chassis component properties. storage Display storage component properties. Usage: omreport <command...> [name=value...] ... [option...] Valid command line options are: -? Print available command(s) or command help. -fmt <lst|tbl|ssv|cdv|xml> Format for output results, default is lst. Where: lst List format. tbl Table format. ssv Semicolon separated format. cdv Custom delimiter separated format. xml Raw XML format. -outc <file> Redirect output to file, delete old if exists. OR -outa <file> Redirect output to file, append to old if exists. OR Output may also be redirected using Operating System facilities (e.g. |more).
Los comandos disponibles relacionados al almacenamiento (storage) son los siguientes:
[root@centos6 ~]# omreport storage -? storage Display storage component properties. The available command(s) are: Command Description adisk Display array disk(s) properties. DEPRECATED: please use pdisk pdisk Display physical disk(s) properties. vdisk Display virtual disk(s) properties. controller Display controller(s) properties. enclosure Display enclosure properties. battery Display battery properties. globalinfo Display global storage properties. connector Display connector properties. cachecade Display cachecade(s) properties. pciessd Display PCIeSSD subsystem properties. fluidcache Display Fluid Cache properties and the associated fluid cachedisks. fluidcachepool Display Fluid CachePool properties. partition Display Partition details for the specified controller and vdisk. fluidcachedisk Display Fluidcache disks properties. tape Display Tape Drive(s) properties. Usage: omreport <command...> [name=value...] ... [option...] Valid command line options are: -? Print available command(s) or command help. -fmt <lst|tbl|ssv|cdv|xml> Format for output results, default is lst. Where: lst List format. tbl Table format. ssv Semicolon separated format. cdv Custom delimiter separated format. xml Raw XML format. -outc <file> Redirect output to file, delete old if exists. OR -outa <file> Redirect output to file, append to old if exists. OR Output may also be redirected using Operating System facilities (e.g. |more).
Para obtener información de un disco físico se requiere especificar una controladora:
[root@centos6 ~]# omreport storage pdisk -? pdisk Display physical disk(s) properties. Required parameters are: controller=id All physical disks are displayed Optional parameters are: vdisk=id All physical disks that comprise the indicated virtual disk cachecade=id All physical disks that comprise the indicated cachecade(s) connector=id All physical disks on the indicated connector pdisk=<PDISKID> The indicated physical disk where PDISKID=<connector:enclosureID:portID | connector:targetID>
Para obtener el ID de la controladora, ejecutar omreport storage controller
:
[root@centos6 ~]# omreport storage controller Controller PERC H200 Adapter (Slot 2) Controllers ID : 0 Status : Non-Critical Name : PERC H200 Adapter Slot ID : PCI Slot 2 State : Degraded Firmware Version : 07.03.05.00 Latest Available Firmware Version : 07.03.06.00 Driver Version : 15.101.00.00 Minimum Required Driver Version : Not Applicable Storport Driver Version : Not Applicable Minimum Required Storport Driver Version : Not Applicable Number of Connectors : 2 Rebuild Rate : Not Applicable BGI Rate : Not Applicable Check Consistency Rate : Not Applicable Reconstruct Rate : Not Applicable Alarm State : Not Applicable Cluster Mode : Not Applicable SCSI Initiator ID : Not Applicable Cache Memory Size : Not Applicable Patrol Read Mode : Not Applicable Patrol Read State : Not Applicable Patrol Read Rate : Not Applicable Patrol Read Iterations : Not Applicable Abort Check Consistency on Error : Not Applicable Allow Revertible Hot Spare and Replace Member : Not Applicable Load Balance : Not Applicable Auto Replace Member on Predictive Failure : Not Applicable Redundant Path view : Not Applicable CacheCade Capable : Not Applicable Persistent Hot Spare : Not Applicable Encryption Capable : Not Applicable Encryption Key Present : Not Applicable Encryption Mode : Not Applicable Preserved Cache : Not Applicable T10 Protection Information Capable : No
Se observa que hay una única controladora, con ID igual a 0. Conociendo el identificador de la controladora es posible determinar en qué estado está el disco en el slot 0 (el cual reemplacé):
[root@centos6 ~]# omreport storage pdisk controller=0 List of Physical Disks on Controller PERC H200 Adapter (Slot 2) Controller PERC H200 Adapter (Slot 2) ID : 0:0 Status : Non-Critical Name : Physical Disk 0:0 State : Ready Power Status : Not Applicable Bus Protocol : SATA Media : HDD Part of Cache Pool : Not Applicable Remaining Rated Write Endurance : Not Applicable Failure Predicted : No Revision : 05.01D05 Driver Version : Not Applicable Model Number : Not Applicable T10 PI Capable : No Certified : No Encryption Capable : No Encrypted : Not Applicable Progress : Not Applicable Mirror Set ID : Not Applicable Capacity : 465.25 GB (499558383616 bytes) Used RAID Disk Space : 0.00 GB (0 bytes) Available RAID Disk Space : 465.25 GB (499558383616 bytes) Hot Spare : No Vendor ID : Product ID : WDC WD5002AALX-32Z3A0 Serial No. : WD-WCATR9568484 Part Number : Not Available Negotiated Speed : 6.00 Gbps Capable Speed : Not Available PCIe Maximum Link Width : Not Applicable PCIe Negotiated Link Width : Not Applicable Sector Size : 512B Device Write Cache : Not Applicable Manufacture Day : Not Available Manufacture Week : Not Available Manufacture Year : Not Available SAS Address : 4433221107000000 ID : 0:1 Status : Ok Name : Physical Disk 0:1 State : Online Power Status : Not Applicable Bus Protocol : SATA Media : HDD Part of Cache Pool : Not Applicable Remaining Rated Write Endurance : Not Applicable Failure Predicted : No Revision : PA07 Driver Version : Not Applicable Model Number : Not Applicable T10 PI Capable : No Certified : Yes Encryption Capable : No Encrypted : Not Applicable Progress : Not Applicable Mirror Set ID : Not Applicable Capacity : 465.25 GB (499558383616 bytes) Used RAID Disk Space : 465.25 GB (499558383616 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST500NM0011 Serial No. : Z1M10AFV Part Number : TH0C3YJM212332AF00GEA01 Negotiated Speed : 3.00 Gbps Capable Speed : Not Available PCIe Maximum Link Width : Not Applicable PCIe Negotiated Link Width : Not Applicable Sector Size : 512B Device Write Cache : Not Applicable Manufacture Day : Not Available Manufacture Week : Not Available Manufacture Year : Not Available SAS Address : 4433221106000000
Notar que el ID del disco en el slot 0 está conformado por el ID de la controladora junto con el ID del slot. El estado Ready indica que el disco está listo para ser utilizado, pero por alguna razón la controladora no ha comenzado el proceso de reconstrucción del mismo (espejado).
Por otro lado, el arreglo permanece en estado degradado (con un disco menos):
[root@centos6 ~]# omreport storage vdisk List of Virtual Disks in the System Controller PERC H200 Adapter (Slot 2) ID : 0 Status : Non-Critical Name : Virtual Disk 0 State : Degraded Hot Spare Policy violated : Not Assigned Encrypted : Not Applicable Layout : RAID-1 Size : 465.25 GB (499558383616 bytes) T10 Protection Information Status : No Associated Fluid Cache State : Not Applicable Device Name : /dev/sda Bus Protocol : SATA Media : HDD Read Policy : Not Applicable Write Policy : Not Applicable Cache Policy : Not Applicable Stripe Element Size : 64 KB Disk Cache Policy : Disabled
Utilizando la herramienta omconfig
es necesario indicarle de alguna forma a la controladora que comience a reconstruir el arreglo utilizando el nuevo disco. Los comandos de omconfig
son similares a los de omreport
:
[root@centos6 ~]# omconfig -? omconfig Configures component properties. The available command(s) are: Command Description about Product and version properties. preferences Set system preferences. system Set system properties. chassis Set chassis component properties. storage Set storage component properties. Usage: omconfig <command...> [name=value...] ... [option...] Valid command line options are: -? Print available command(s) or command help. -fmt <lst|xml> Format for output results, default is lst. Where: lst List format. xml Raw XML format. -outc <file> Redirect output to file, delete old if exists. OR -outa <file> Redirect output to file, append to old if exists. OR Output may also be redirected using Operating System facilities (e.g. |more).
Los comandos relacionados al almacenamiento son los siguientes:
[root@centos6 ~]# omconfig storage -? storage Set storage component properties. The available command(s) are: Command Description adisk Supports array disk configuration commands. DEPRECATED: please use pdisk pdisk Supports physical disk configuration commands. vdisk Supports virtual disk configuration commands. controller Supports controller configuration commands. enclosure Supports enclosure configuration commands. battery Supports battery configuration commands. globalinfo Supports global storage configuration commands. connector Supports connector configuration commands. cachecade Supports cachecade(s) configuration commands. pciessd Supports pciessd device configuration commands. fluidcache Supports fluidcache configuration commands. partition Supports partition configuration commands. fluidcachedisk Supports fluid cached disk configuration commands. Usage: omconfig <command...> [name=value...] ... [option...] Valid command line options are: -? Print available command(s) or command help. -fmt <lst|xml> Format for output results, default is lst. Where: lst List format. xml Raw XML format. -outc <file> Redirect output to file, delete old if exists. OR -outa <file> Redirect output to file, append to old if exists. OR Output may also be redirected using Operating System facilities (e.g. |more).
Es posible ejecutar las siguientes acciones sobre los discos físicos:
[root@centos6 ~]# omconfig storage pdisk -? pdisk Supports physical disk configuration commands. action=blink Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> blinks the given physical disk action=unblink Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> unblinks the given physical disk action=remove Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> prepares the physical disk for removal action=instantsecureerase Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> erases the given SED. PCIe-SSD also use the same command for the full initialization. action=initialize Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> initializes the given physical disk action=offline Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> offlines the given physical disk action=online Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> onlines the given physical disk action=assignglobalhotspare Required parameters are: controller=id pdisk=<PDISKID> assign=<yes | no> where PDISKID=<connector:enclosureID:portID | connector:targetID> assigns/unassigns the given physical disk as global hot spare. Note : The input physical disk can only protect virtual disks of same bus protocol, media type, sector size, T10 Protection Information capability, and encryption capability. action=rebuild Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> rebuilds the given physical disk action=cancelrebuild Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> cancels rebuild on the given physical disk action=cancelreplacemember Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> cancels replace member operation on the given physical disk action=removedeadsegments Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> removes the disk space occupied by a dead disk segment action=clear Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> clears the given physical disk action=cancelclear Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> cancels clear operation on the given physical disk action=convertraidtononraid Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> converts RAID to Non-RAID on the given physical disk action=convertnonraidtoraid Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> converts Non-RAID to RAID on the given physical disk action=enabledevicewritecache Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> enables Write Cache on the given physical disk for the PCIe-SSD controllers action=disabledevicewritecache Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> disables Write Cache on the given physical disk for the PCIe-SSD controllers action=exportlog Required parameters are: controller=id pdisk=<PDISKID> where PDISKID=<connector:enclosureID:portID | connector:targetID> exports the PCIe-SSD device log to windows folder on Windows and /var/log on Linux. Depending on the PCIeSSD device, the log file name will be PCIeSSD_<serial no>_<timestamp>.log where <serial no> is the serial number of the device and timestamp is month, day, hour, minute and second during which the command is executed.
Lo primero que se me ocurrió fue ejecutar, sin éxito, omconfig storage pdisk action=rebuild controller=0 pdisk=0:0
para tratar de reconstruir el arreglo utilizando el nuevo disco. Por alguna razón la controladora me impidió realizar tal acción (sospecho que la controladora no estaba detectando al nuevo disco como parte del arreglo RAID 1 degradado, pero en ese momento no me di cuenta de tal situación). Por lo tanto, lo siguiente que intenté fue asignar al nuevo disco como hot spare global. Es decir un disco de reemplazo (en caliente) disponible para cualquier arreglo en la misma controladora. Para ello ejecuté omconfig storage pdisk action=assignglobalhotspare controller=0 pdisk=0:0 assign=yes
:
[root@centos6 ~]# omconfig storage pdisk action=assignglobalhotspare controller=0 pdisk=0:0 assign=yes Command successful!
Al ejecutar esta acción (poner al nuevo disco disponible como reemplazo para cualquier arreglo), la controladora comenzó inmediatamente el proceso de rebuilding (reconstrucción):
[root@centos6 ~]# omreport storage pdisk controller=0 List of Physical Disks on Controller PERC H200 Adapter (Slot 2) Controller PERC H200 Adapter (Slot 2) ID : 0:0 Status : Non-Critical Name : Physical Disk 0:0 State : Rebuilding Power Status : Not Applicable Bus Protocol : SATA Media : HDD Part of Cache Pool : Not Applicable Remaining Rated Write Endurance : Not Applicable Failure Predicted : No Revision : 05.01D05 Driver Version : Not Applicable Model Number : Not Applicable T10 PI Capable : No Certified : No Encryption Capable : No Encrypted : Not Applicable Progress : Not Applicable Mirror Set ID : Not Applicable Capacity : 465.25 GB (499558383616 bytes) Used RAID Disk Space : 465.25 GB (499558383616 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : Product ID : WDC WD5002AALX-32Z3A0 Serial No. : WD-WCATR9568484 Part Number : Not Available Negotiated Speed : 6.00 Gbps Capable Speed : Not Available PCIe Maximum Link Width : Not Applicable PCIe Negotiated Link Width : Not Applicable Sector Size : 512B Device Write Cache : Not Applicable Manufacture Day : Not Available Manufacture Week : Not Available Manufacture Year : Not Available SAS Address : 4433221107000000 ID : 0:1 Status : Ok Name : Physical Disk 0:1 State : Online Power Status : Not Applicable Bus Protocol : SATA Media : HDD Part of Cache Pool : Not Applicable Remaining Rated Write Endurance : Not Applicable Failure Predicted : No Revision : PA07 Driver Version : Not Applicable Model Number : Not Applicable T10 PI Capable : No Certified : Yes Encryption Capable : No Encrypted : Not Applicable Progress : Not Applicable Mirror Set ID : Not Applicable Capacity : 465.25 GB (499558383616 bytes) Used RAID Disk Space : 465.25 GB (499558383616 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST500NM0011 Serial No. : Z1M10AFV Part Number : TH0C3YJM212332AF00GEA01 Negotiated Speed : 3.00 Gbps Capable Speed : Not Available PCIe Maximum Link Width : Not Applicable PCIe Negotiated Link Width : Not Applicable Sector Size : 512B Device Write Cache : Not Applicable Manufacture Day : Not Available Manufacture Week : Not Available Manufacture Year : Not Available SAS Address : 4433221106000000
Notar que el estado del disco cambia a "Rebuilding". El proceso de reconstrucción es muy lento y puede demorar muchas horas (dependiendo del uso y del tamaño de los discos), sobre todo si el servidor está en funcionamiento (mientras se dispone de los discos, en paralelo se reconstruye el nuevo disco, actualizando los cambios a medida que van ocurriendo).
El campo "Progress" indica el porcentaje de reconstrucción.
Suele ocurrir que OMSA no refresca el porcentaje de reconstrucción. En tal caso es posible reiniciar los servicios para forzar a que lean datos frescos desde la controladora:
[root@centos6 ~]# srvadmin-services.sh restart Shutting down DSM SA Shared Services: [ OK ] Shutting down DSM SA Connection Service: [ OK ] Stopping Systems Management Data Engine: Stopping dsm_sa_snmpd: [ OK ] Stopping dsm_sa_eventmgrd: [ OK ] Stopping dsm_sa_datamgrd: [ OK ] Stopping Systems Management Device Drivers: Stopping dell_rbu: [ OK ] Starting Systems Management Device Drivers: Starting dell_rbu: [ OK ] Starting ipmi driver: Already started [ OK ] Starting Systems Management Data Engine: Starting dsm_sa_datamgrd: [ OK ] Starting dsm_sa_eventmgrd: [ OK ] Starting dsm_sa_snmpd: [ OK ] Starting DSM SA Shared Services: [ OK ] Starting DSM SA Connection Service: [ OK ]
Luego de muchas horas avanzó un 45%:
[root@centos6 ~]# omreport storage pdisk controller=0List of Physical Disks on Controller PERC H200 Adapter (Slot 2) Controller PERC H200 Adapter (Slot 2) ID : 0:0 Status : Non-Critical Name : Physical Disk 0:0 State : Rebuilding Power Status : Not Applicable Bus Protocol : SATA Media : HDD Part of Cache Pool : Not Applicable Remaining Rated Write Endurance : Not Applicable Failure Predicted : No Revision : 05.01D05 Driver Version : Not Applicable Model Number : Not Applicable T10 PI Capable : No Certified : No Encryption Capable : No Encrypted : Not Applicable Progress : 45% complete Mirror Set ID : Not Applicable Capacity : 465.25 GB (499558383616 bytes) Used RAID Disk Space : 465.25 GB (499558383616 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : Product ID : WDC WD5002AALX-32Z3A0 Serial No. : WD-WCATR9568484 Part Number : Not Available Negotiated Speed : 6.00 Gbps Capable Speed : Not Available PCIe Maximum Link Width : Not Applicable PCIe Negotiated Link Width : Not Applicable Sector Size : 512B Device Write Cache : Not Applicable Manufacture Day : Not Available Manufacture Week : Not Available Manufacture Year : Not Available SAS Address : 4433221107000000 ID : 0:1 Status : Ok Name : Physical Disk 0:1 State : Online Power Status : Not Applicable Bus Protocol : SATA Media : HDD Part of Cache Pool : Not Applicable Remaining Rated Write Endurance : Not Applicable Failure Predicted : No Revision : PA07 Driver Version : Not Applicable Model Number : Not Applicable T10 PI Capable : No Certified : Yes Encryption Capable : No Encrypted : Not Applicable Progress : Not Applicable Mirror Set ID : Not Applicable Capacity : 465.25 GB (499558383616 bytes) Used RAID Disk Space : 465.25 GB (499558383616 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST500NM0011 Serial No. : Z1M10AFV Part Number : TH0C3YJM212332AF00GEA01 Negotiated Speed : 3.00 Gbps Capable Speed : Not Available PCIe Maximum Link Width : Not Applicable PCIe Negotiated Link Width : Not Applicable Sector Size : 512B Device Write Cache : Not Applicable Manufacture Day : Not Available Manufacture Week : Not Available Manufacture Year : Not Available SAS Address : 4433221106000000
Es importante contar con arreglos de discos, incluso en los sistemas más insignificantes, para evitar dolores de cabeza. Uno desconoce la importancia de un sistema hasta que deja de prestar servicios. Incluso parece aumentar cuando un servicio no está disponible (muchas veces para los usuarios un servicio se convierte en indispensable desde el momento en que deja de estar en línea). Por ello los sysadmins adoramos al Dios uptime.
Referencias
OpenManage Server Administrator
OpenManage Server Administrator - OMSA
Using the Storage Management Service
Dell Blade Server Replace Bad Disk
Replace dead / faulty drive in Dell PERC RAID array
Dell OpenManage Server Administrator Version 6.5 - Command Line Interface Guide
Tal vez pueda interesarte