Tolérance aux pannes

Tolérance aux pannes

Puisqu'il est impossible d'empêcher totalement les pannes, une solution consiste à mettre en place des mécanismes de redondance, en dupliquant les ressources critiques.

La capacité d'un système à fonctionner malgré une défaillance d'une de ses composantes est appelée tolérance aux pannes (parfois nommée tolérance aux fautes », en anglais fault tolerance).

Lorsqu'une des ressources tombe en panne, les autres ressources prennent le relais afin de laisser le temps aux administrateurs du système de remédier à l'avarie. En anglais le terme de « Fail-Over Service » (noté FOS) est ainsi utilisé.

Idéalement, dans le cas d'une panne matérielles, les éléments matériels fautifs devront pouvoir être « extractibles à chaud » (en anglais « hot swappable »), c'est-à-dire pouvoir être extraits puis remplacés, sans interruption de service.

Cet article est régulièrement mis à jour par des experts sous la
direction de Jean-François Pillou, fondateur de CommentCaMarche
et directeur délégué au développement numérique du groupe Figaro.
Ce document intitulé « Tolérance aux pannes » issu de Comment Ça Marche (www.commentcamarche.net) est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.