I RAID sono una soluzione di archiviazione su più dischi rigidi che ha l’obiettivo di aumentare le prestazioni, la sicurezza o la capacità di archiviazione. Il termine significa Redundant Array of Independent Disks, ovvero insieme ridondante di dischi indipendenti. I RAID migliorano le caratteristiche dei singoli dischi, che possono essere limitati in termini di affidabilità, velocità o spazio, cercando di ottenere un bilanciamento tra questi fattori. Per esempio, si può scegliere una configurazione che privilegia la sicurezza dei dati, sacrificando un po' di spazio e di velocità, oppure una che privilegia la velocità, sacrificando un po' di sicurezza e di spazio.
I RAID, molto diffusi nei server, nei computer per il video editing, nei sistemi di backup e nei NAS, vengono usati quando i dati sono critici per l'attività o il lavoro che si svolge. I principali utilizzatori sono le aziende e le organizzazioni che hanno bisogno di gestire molti dati o gli utenti privati che desiderano una soluzione professionale per il backup e il miglioramento delle prestazioni.
Esistono vari livelli di RAID, che offrono diverse combinazioni di prestazioni e sicurezza. I principali sono RAID 0, RAID 1, RAID 5, RAID 6, RAID 10, RAID 50 e RAID 60. Per una spiegazione delle varie configurazioni, abbiamo approfondito l’argomento a questo link. La finalità di questo articolo è elencare i guasti comuni e gli scenari di ripristino per ogni livello.
Glossario RAID
Per facilitare la comprensione dell’articolo, spieghiamo alcuni vocaboli ricorrenti quando si parla di RAID. Così potrete già intuire il funzionamento e i vantaggi di questa soluzione di archiviazione. Nei paragrafi seguenti utilizzeremo spesso questi termini:
- array: è un insieme di elementi, nel caso dei RAID un gruppo di dischi. Il subarray è invece un array annidato in uno più grande.
- controller: è un componente hardware installato sulla scheda madre o inserito in uno slot PCI o PCIe. Un controller RAID è composto da diversi elementi tra cui la CPU, la memoria cache, i connettori per i dischi e quelli per la scheda madre. La CPU gestisce e organizza il flusso di dati tra il computer e i dischi, utilizzando un algoritmo in base al livello RAID scelto. La memoria cache archivia le informazioni temporaneamente per ridurre il carico sui dischi e ottimizzare le prestazioni. Alcuni controller includono una batteria o un modulo di backup per proteggere la cache in caso di interruzione di corrente. Infine, i connettori collegano i dischi al computer e si dividono in due tipi: SATA e SAS. I SATA sono impiegati nei desktop e nei server semplici, mentre i SAS, che permettono di collegare diversi dischi in cascata su un unico canale, sono comuni nei server avanzati.
- ridondanza: è una copia in eccesso dei dati. Nella tecnologia RAID, la ridondanza permette di accedere ai dati anche in caso di guasti. La ridondanza è ottenuta duplicando i dati in modo che se un disco si danneggia, subentrano gli altri. La copia può essere fatta una o più volte.
- parità: è un tipo di scrittura che associa ad un blocco di dati un blocco “di parità”. Il blocco di parità contiene le informazioni di ricostruzione in caso di fallimento di un disco. Un tipico esempio in un array a tre dischi è quando i blocchi di dati sono scritti sui primi due, mentre il blocco di parità è scritto sul terzo.
- mirroring: è una tecnica di duplicazione dei dati su due o più dischi, chiamati "mirror" o "specchi". Ogni modifica ai dati sullo specchio viene replicata negli altri.
- parallelismo: il termine si riferisce all’esecuzione simultanea di diversi compiti. In informatica il parallelismo velocizza un processo suddividendolo in sotto-task indipendenti. Nella tecnologia RAID, il parallelismo suddivide i dati in blocchi.
- striping: tecnica di parallelismo che suddivide i dati in blocchi (stripe) e li distribuisce su più dischi. Questa tecnica consente un accesso simultaneo ai dati aumentando la velocità del sistema.
- rebuilding: significa ricostruire un array in seguito al fallimento dei dischi. Quando un disco si rompe o viene sostituito, il rebuilding copia o ricostruisce i dati partendo dalle copie speculari o dalle informazioni di parità.
Ora che abbiamo spiegato i termini fondamentali, esaminiamo le cause frequenti di guasti e gli scenari di recupero per ciascun livello.
Cause comuni di guasti
I RAID sono sistemi di archiviazione che, utilizzando dei dischi, sono soggetti a guasti meccanici, surriscaldamento, sovratensioni e virus. Tuttavia, sono esposti a problemi specifici come la corruzione dei metadati, l'incompatibilità del controller o la perdita di sincronizzazione. Semplificando, i guasti ricorrenti sono classificabili in tre categorie: fisiche, logiche e di configurazione.
Le cause fisiche riguardano l’hardware, come i dischi, i controller, i cavi o le schede madri. Questi guasti sono causati da usura, surriscaldamento, sbalzi di tensione, urti o cadute. Solitamente rendono i dati inaccessibili su uno o più dischi, a seconda della gravità del danno.
Le cause logiche si verificano quando errori nel software o nel file system impediscono l'accesso ai dati al sistema operativo. Questi guasti sono causati da malware, errori di scrittura, file corrotti, formattazioni accidentali o cancellazioni. I guasti logici rendono illeggibili i dati su tutto il RAID o su una parte di esso, a seconda della gravità del problema e del file system. Talvolta alterano i metadati che descrivono la struttura dell’array, complicando il ripristino della configurazione.
Gli errori di configurazione sono una causa comune di guasto. Questi errori accadono durante la definizione del numero di dischi, del livello RAID, delle partizioni, del tipo di striping o di mirroring. Sono causati da un'errata impostazione iniziale o dall'incompatibilità di modifiche successive. Questi errori causano il mancato avvio dell’array o l’impossibilità di ricostruzione dopo la sostituzione di un disco.
RAID 0
Il RAID 0 è un sistema di archiviazione che aumenta le prestazioni usando lo striping, ovvero la scrittura e lettura dei dati in parallelo. I dati vengono suddivisi in strisce e distribuiti su tutti i dischi. Per creare un array RAID 0, il numero minimo di dischi è 2, mentre non c’è limite al numero massimo. Il RAID 0 è usato da chi ha bisogno di prestazioni elevate, ad esempio da chi si occupa di video editing o gaming.
Recupero dati RAID 0
I vantaggi del RAID 0 sono la velocità di trasferimento e la completa disponibilità di spazio sui dischi, ma lo svantaggio è che non ha ridondanza di dati, quindi se uno dei dischi si guasta si perde tutto. Un modo per salvaguardarsi è creare un’immagine dell’intero array su un’unità esterna. Così facendo, si evita il rischio di perdita dei dati nel caso di un solo guasto. Un'altra opzione è usare un software di backup che sincronizza i file. Dopo la prima copia, il software copia solo i file modificati o aggiunti di recente, risparmiando tempo e spazio.
Il recupero dati RAID 0 dipende dalla presenza o meno di un backup. Se il backup o l’immagine sono presenti, vengono usati per ripristinare l’array. In caso contrario, si utilizza un apposito software per recuperare i dati dal disco rotto . A volte, in presenza di stripe grandi, ci potrebbero essere dei piccoli file ancora intatti. Per completare il recupero, una volta salvati i file su un nuovo supporto, si ricostruisce l’array per renderlo di nuovo operativo.
RAID 1
Il RAID 1 utilizza il mirroring, cioè duplica i dati su uno o più dischi in modo da garantire ridondanza. Un array di base richiede almeno 2 dischi ma è possibile aggiungerne altri senza limiti. Espandere l’array aumenta la sicurezza, ma non influisce sulla capacità totale di archiviazione, che è sempre del 50% di quella totale dei dischi. Il RAID 1 è usato da enti o utenti singoli che cercano un sistema di archiviazione semplice ma sicuro.
Recupero dati RAID 1
Il RAID 1 presenta una affidabilità maggiore rispetto al RAID 0 poiché, grazie ai dati duplicati, tollera la rottura di un disco. Gli svantaggi sono una minore capacità di archiviazione e una minore velocità in scrittura. La capacità totale dell'array è pari alla capacità del disco più piccolo, in quanto gli altri sono usati come copie. Per quanto riguarda le prestazioni, la scrittura degli stessi dati su tutti i dischi rallenta il sistema.
Il recupero dati RAID 1 dipende dal numero di dischi rotti. Se il guasto riguarda un solo disco, il sistema continua a funzionare con il disco speculare. Per recuperare l'array, si sostituisce il disco e si avvia il rebuild. Se il guasto riguarda entrambi i dischi, il sistema si arresta e non è possibile accedere ai dati. In questo caso si ripristinano i file da un backup esterno. Se il backup non è disponibile, si tenta di recuperare e copiare i dati su due nuovi dispositivi da inserire nell’array.
Per aumentare la sicurezza e la ridondanza del RAID 1, è consigliato usare più dischi o creare array annidati come il RAID 10. Aggiungere altri dischi incrementa la protezione, ma anche il costo. Una soluzione che invece non fa lievitare i costi è il backup regolare su dispositivi esterni.
RAID 5
Il RAID 5 combina lo striping e la parità distribuendo i dati e i blocchi di parità equamente tra tutti i dischi. Prendendo come esempio un array con tre dischi, i dati vengono divisi in stripe sui primi due e il blocco di parità viene assegnato al terzo. Il processo seguente scrive i dati sul primo e sul terzo, assegnando il blocco di parità al secondo.
Il RAID 5 è una soluzione popolare, in quanto ottimizza il rapporto tra spazio di archiviazione e prestazioni. Infatti, ha una capacità maggiore rispetto a RAID 1 e offre prestazioni simili a RAID 0. L’array di base richiede almeno 3 dischi e non ha un limite massimo. Per tutte queste caratteristiche, il RAID 5 è utilizzato da chi cerca sicurezza, prestazioni e costi sostenibili, come aziende di piccole-medie dimensioni nei settori IT e multimedia.
Recupero dati RAID 5
Il vantaggio principale del RAID 5 è che offre una maggiore affidabilità a un costo inferiore rispetto ai livelli annidati. Inoltre, se una sola unità si guasta, gli utenti hanno comunque accesso ai dati. Lo svantaggio principale è che riduce la velocità di scrittura, a causa del calcolo delle informazioni di parità. Inoltre, la struttura complessa dell’array allunga i tempi di ricostruzione.
Il recupero dati RAID 5 dipende dal numero di dischi che si guastano. Nel caso di un disco rotto, l'array appare come degradato, ma funziona lo stesso grazie alla possibilità di ricostruire i dati usando le informazioni di parità. Dopo aver rimpiazzato l'unità, il controller è in grado di ricostruire l'array usando le informazioni.
Nel caso di due dischi rotti, il sistema appare come fallito. Il recupero prevede l’uso di un backup, la ricostruzione manuale o la ricostruzione con un software. Per utilizzare il backup, si riparano o sostituiscono i dischi verificando che siano compatibili con l’array. In seguito si caricano i dati dal backup e si testa il funzionamento.
La ricostruzione manuale o la ricostruzione con un software necessitano di una o più unità esterne e un disco di avvio, che serve per riversare i dati dai dischi rotti, ricostruire la configurazione e trasferire i dati nell’array su due dischi nuovi. Dato che non sempre tale tentativo va a buon fine, come ultima possibilità si verifica la presenza di file piccoli intatti. Come nel RAID 0, se le stripe usate sono sufficientemente grandi, alcuni file potrebbero essere completi e utilizzabili.
RAID 6
Il RAID 6 usa lo striping e la doppia parità distribuita su tutti i dischi. Questo significa che i dati vengono suddivisi in blocchi e scritti su più dischi, insieme a due blocchi di parità per ogni striscia di dati. RAID 5 e RAID 6 sono simili, ma ognuno presenta vantaggi e svantaggi. Il RAID 6 offre una maggiore protezione rispetto al RAID 5 e tollera due guasti simultanei, ma richiede un minimo di 4 dischi. Il RAID 6 è usato da aziende o uffici nei settori IT, multimedia e ingegneria e in generale da coloro che desiderano una soluzione di archiviazione veloce, sicura ed economicamente sostenibile.
Recupero dati RAID 6
Il vantaggio del RAID 6 è che sopporta la perdita di due dischi senza interrompere il servizio. Gli svantaggi sono la ridotta capacità e le prestazioni in lettura/scrittura. Sacrificando due dischi per la parità, lo spazio totale diminuisce e, scrivendo due blocchi di parità per ogni striscia di dati, le operazioni rallentano. Inoltre, il sistema impiega molto tempo a ricostruire i dati in caso di sostituzione di un disco.
Il recupero dati RAID 6 dipende dal numero di dischi rotti. Nel caso di uno o due dischi, il sistema funziona, pur essendo contrassegnato come degradato. Allo stesso tempo, recupera i dati utilizzando le informazioni di parità. Il processo di rebuilding comporta un carico di lavoro significativo, ma l'array rimane operativo.
Se i dischi rotti sono tre, il rebuild non è in grado di recuperare i dati. La presenza di due blocchi di parità offre una robusta ridondanza, ma la perdita di tre dischi supera la tolleranza dell’array. In questo caso, è necessario disporre di un backup esterno operando in maniera simile al recupero dati RAID 1 e 5.
Tuttavia il rebuild è complicato e non esente da rischi. Se si sostituiscono le unità o si ricostruisce l'array in modo errato, si può perdere l'accesso. In questo caso, è meglio affidarsi ad un centro specializzato che, con dei software specifici, riassembla l'array ed eventualmente analizza i volumi per recuperare i dati mancanti.
RAID 10
Il RAID 10 è un livello annidato che combina striping e mirroring per ottenere prestazioni elevate e affidabilità. Per creare un array di base sono necessari almeno 4 dischi, che vengono divisi in 2 gruppi di 2 dischi ciascuno. A livello di gruppo (subarray) si esegue il mirroring, ovvero la duplicazione dei dati, mentre a livello di array si esegue lo striping, cioè la distribuzione dei blocchi di dati. In questo modo, se uno o due dischi falliscono, l’array continua a funzionare grazie alle copie speculari.
Il RAID 10, combinando le caratteristiche del RAID 1 e RAID 0, è utilizzato da aziende che necessitano sia di sicurezza che di velocità, per gestire ad esempio database, server web o progetti d’ingegneria.
Recupero dati RAID 10
I RAID 10 hanno una maggiore velocità di lettura e scrittura rispetto ai RAID 1 e una maggiore tolleranza ai guasti rispetto ai RAID 0. Tuttavia, hanno un costo elevato in rapporto allo spazio disponibile che, a causa delle copie speculari, è di solo il 50% della capacità totale dei dischi.
Il recupero dati RAID 10 dipende dal numero di dischi guasti, ma è simile al recupero dati RAID 1 e 0. Se un solo disco si rompe, subentra il disco speculare. L'array passa ad uno stato degradato ma funziona comunque. Tuttavia, venendo a mancare un requisito di mirroring, il sistema si espone ad altri rischi. In questo caso, è necessario sostituire tempestivamente il disco rotto ed eseguire il rebuild.
Nel caso di due dischi rotti, la posizione influisce sulla capacità di recupero. Se essi appartengono a coppie speculari diverse, il sistema ricostruisce entrambi i dischi utilizzando le copie salve. Se invece appartengono alla stessa copia speculare, il sistema potrebbe perdere i dati definitivamente. È necessario ricorrere ad un backup o tentare il recupero dati dal supporto danneggiato.
RAID 50
Il RAID 50 è un livello annidato che combina RAID 5 e RAID 0. Ogni subarray RAID 5, che utilizza striping e parità, è annidato all’interno di un array RAID 0, anch’esso in modalità striping. In questo modo, si ottiene un ottimo equilibrio tra la sicurezza e le prestazioni. La configurazione di base richiede almeno 6 dischi, suddivisi in 2 gruppi da 3 dischi ciascuno. Il numero massimo di dispositivi dipende dal tipo di controller. Dato il numero minimo di dischi richiesto, il RAID 50 è un sistema costoso e usato in aziende o organizzazioni che hanno grandi quantità di dati da proteggere ed elaborare.
Recupero dati RAID 50
I vantaggi di un RAID 50 sono dati dalle prestazioni, dall'affidabilità e dalla capacità di archiviazione. Rispetto ad un RAID 5, la velocità di lettura e scrittura è maggiore, grazie alla riduzione degli overhead di parità e alla distribuzione dei dati su più dischi. Anche la tolleranza agli errori è raddoppiata, poiché è presente un blocco di parità per ogni gruppo di dischi. Inoltre, rispetto ad un RAID 10, la capacità è maggiore, dato che viene usata la parità anziché la duplicazione dei dati. Gli unici svantaggi di un RAID 50 sono la complessità e il costo.
Il recupero dati RAID 50 è necessario solo nel caso in cui due dischi si guastano nello stesso subarray. Infatti, ogni gruppo RAID 5 contiene informazioni di parità che permettono di recuperare i dati in caso di un solo guasto. Il RAID 50 tollera anche il guasto di due dischi contemporaneamente, purché si trovino in subarry separati.
Se si trovano nello stesso subarray, l’intera configurazione fallisce e i dati potrebbero essere irrecuperabili. Per ripristinare i file e avviare il rebuild, si procede in modo simile ad un recupero dati RAID 5. Anche in questo caso, le soluzioni possibili sono l’utilizzo di un backup o il recupero dati dalle unità danneggiate.
RAID 60
Il RAID 60 è un livello annidato che combina due o più subarry RAID 6 in un array RAID 0. Il RAID 6 usa due blocchi di parità, mentre il RAID 0 usa il parallelismo su tutti i dischi per aumentare le prestazioni. Per una configurazione minima sono necessari almeno 8 dischi, divisi in 2 gruppi da 4 dischi ciascuno. Il RAID 60 è indicato in settori in cui è richiesta una elevata ridondanza e prestazioni elevate come il cloud computing e i data center di grandi dimensioni.
Recupero dati RAID 60
Il vantaggio del RAID 60 è che offre una maggiore sicurezza dei dati rispetto al RAID 50, in quanto, usando la doppia parità, tollera fino a due guasti per ogni gruppo. Inoltre, il RAID 60 ha una maggiore velocità di lettura e scrittura rispetto al RAID 6, grazie alla suddivisione dei dati tra i gruppi. Lo svantaggio è che richiede un elevato numero di dischi, il che si traduce in costi elevati e complessità di gestione.
Nel caso di uno o due dischi rotti in gruppi diversi, l’array continua a funzionare ed è ricostruibile. Tuttavia, se si verificano più di due guasti in uno stesso gruppo, il RAID 60 fallisce. Per il recupero dati RAID 60 è necessario sostituire i dischi e usare un backup. Altrimenti, in assenza di backup, si procede al recupero dei file direttamente dai dischi rotti.
Considerazioni finali
In questo articolo abbiamo illustrato i livelli RAID più comuni, spiegando per ognuno le caratteristiche e gli scenari di recupero. Abbiamo anche evidenziato come i guasti RAID siano eventi comuni ma delicati da risolvere. Un recupero dati RAID 1 o RAID 5 potrebbe sembrare facile se confrontato con il recupero di livelli annidati come il RAID 10 o il RAID 50. Ma anche un semplice rebuild fatto male ha conseguenze disastrose. Se si commettono errori, si rischia di perdere i file, causare conflitti tra i dischi o compromettere la configurazione originale.
Se avete un array RAID non funzionante, non tentate di risolvere da soli il problema, potreste peggiorare la situazione e compromettere il ripristino. È meglio affidarsi a personale qualificato che sappia come eseguire un rebuild sicuro. Il nostro team dispone di strumenti e software adeguati, conosce le caratteristiche e le compatibilità dei vari tipi di RAID e sa come intervenire in caso di imprevisti. Perciò non esitate a contattarci, siamo esperti nel recupero dati RAID e possiamo offrirvi una soluzione sicura ed efficace.
Recupero Dati Professionale