Please use this identifier to cite or link to this item: http://hdl.handle.net/10201/10050

Title: Fault-tolerant Cache Coherence Protocols for CMPs
Issue Date: 9-Feb-2010
Date of creation: 23-Jul-2007
Publisher: Universidad de Murcia
ISBN: 978-84-692-9365-2
Related subjects: CDU::6 - Ciencias aplicadas::62 - Ingeniería. Tecnología::621 - Ingeniería mecánica en general. Tecnología nuclear. Electrotecnia. Maquinaria::621.3 - Ingeniería eléctrica. Electrotecnia. Telecomunicaciones
Keywords: Ordenadores
Arquitectura
Abstract: Abstract: We propose a way to deal with transient faults in the interconnection network of many-core CMPs that is different from the classic approach of building a fault-tolerant interconnection network. In particular, we provide fault tolerance mechanisms at the level of the cache coherence protocol so that it guarantees the correct execution of programs even when the underlying interconnection network does not deliver all messages correctly. This way, we can take advantage of the different meaning of each message to achieve fault tolerance with lower overhead than at the level of the interconnection network, which has to treat all messages alike with respect to reliability. We design several fault-tolerant cache coherence protocols using these techniques and evaluate them. This evaluation shows that, in absence of faults, our techniques do not increase significantly the execution time of the applications and their major cost is an increase in network traffic due to acknowledgment messages that ensure the reliable transference of ownership between coherence nodes, which are sent out of the critical path of cache misses. In addition, a system using our protocols degrades gracefully when transient faults actually happen and can support fault rates much higher than those expected in the real world with only a small performance degradation. Resumen: Se proponen una forma de tratar con los fallos transitorios en la red de interconexión de un CMP con gran número de núcleos que es diferente del enfoque clásico basado en construir una red de interconexión tolerante a fallos. En particular se proporcionan mecanismos de tolerancia a fallos al nivel del protocolo de coherencia. De esta forma, se puede aprovechar el conocimiento que el protocolo tiene sobre el significado de cada mensaje para obtener tolerancia a fallos con menor sobrecarga que en el nivel de red, que tiene que tratar todos los mensajes idénticamente. En la tesis se diseñan y evalúan varios protocolos de coherencia utilizando estas técnicas. Los resultados muestran que, cuando no hay fallos, nuestras técnicas no incrementan significativamente el tiempo de ejecución de las aplicaciones y su mayor coste es un incremento en el tráfico de red. Además, un sistema que use nuestros protocolos soporta tasas de fallos mucho mayores que las esperadas en circunstancias realistas y su rendimiento se degrada gradualmente cuando ocurren los fallos.
Primary author: Fernández Pascual, Ricardo
Director: García Carrasco, José Manuel
Acacio Sánchez, Manuel Eugenio
Faculty / Departments / Services: Departamentos y Servicios::Departamentos de la UMU::Ingeniería y Tecnología de Computadores
Published in: Proyecto de investigación:
Previous versions of the document: http://global.tesisenred.net/TDR-0121110-125118/index_cs.html#documents
URI: http://hdl.handle.net/10201/10050
Document type: info:eu-repo/semantics/doctoralThesis
Number of pages / Extensions: 210
Rights: La difusión de este documento por medio de Internet ha sido autorizado por los titulares de los derechos de propiedad intelectual únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro ni su difusión.
info:eu-repo/semantics/openAccess
Appears in Collections:Ingeniería

Files in This Item:
File Description SizeFormat 
FernandezPascual.pdf1,48 MBAdobe PDFView/Open


Items in Digitum are protected by copyright, with all rights reserved, unless otherwise indicated.