Saltar al contenido
ᐅ HielosMendez – Información digital que te dejara helado 🧊🥶

Google y Seagate AI identifican discos duros con problemas antes de que fallen

Este sitio puede ganar comisiones de afiliados a partir de los enlaces de esta página. Condiciones de uso.

Google y Seagate han anunciado que están construyendo un modelo de aprendizaje automático destinado a predecir cuándo es probable que muera un disco duro. Esta pregunta, y todos la hemos hecho en un momento u otro, es sorprendentemente difícil de responder, incluso para empresas como Google, que tienen acceso a una gran cantidad de datos sobre el comportamiento de millones de discos duros en sus centros de datos durante los últimos 20 años. años.

La publicación del blog de Google anunciando este esfuerzo no hace el mejor trabajo para ilustrar la complejidad de la tarea en cuestión. Hay una publicación de blog de 2016 de Backblaze que analiza el sistema de atributos SMART para discos duros que ofrece información adicional valiosa sobre el alcance de este problema.

En 2016, Backblaze rastreado cinco atributos SMART diferentes para predecir fallas en el disco duro. La empresa había descubierto que cinco atributos (SMART 5, 187, 188, 197 y 198) se correlacionaban bien con la falla de la unidad. El 76,7 por ciento de los discos duros que fallaron durante el período relevante tuvieron al menos una falla SMART en estos cinco atributos. Solo el 4,2 por ciento de los discos duros operativos informó una falla en uno o más de estos cinco atributos.

Sin embargo, los intentos de encontrar correlaciones fuertes entre los cinco atributos resultaron ser complicados.

Imagen de Backblaze

Este gráfico muestra la posibilidad de que una falla en cualquier atributo SMART dado corresponda a una falla en otro de los otros cinco atributos. Solo dos atributos se correlacionan bien: SMART 197 y SMART 198. SMART 188 y SMART 187 casi no tienen correlación.

Sin embargo, una cosa que señala Backblaze en su informe es que los patrones de error son diferentes si examina las unidades donde los errores se acumularon lentamente con el tiempo en comparación con las unidades donde los errores aparecieron repentinamente. La discusión general de Backblaze deja en claro que hacer malabares incluso con un puñado de atributos SMART fue difícil en 2016.

En la actualidad, Google y Seagate recopilan una cantidad no especificada de datos SMART, combinados con datos de host de sistemas host compuestos por varias unidades, registros de HDD (OVD y FARM) y datos de fabricación de las unidades, incluido el número de modelo y los números de lote. Si bien no podemos decirlo con certeza, parece que Google y Seagate están recopilando mucha más información de la que Backblaze estaba trabajando hace cinco años.

Según Google, evaluó dos enfoques diferentes: un clasificador de AutoML Tables y un modelo personalizado «basado en transformadores profundos». El modelo de AutoML realmente funcionó mejor, con una precisión del 98 por ciento y una recuperación del 35 por ciento.

Esto es lo que eso significa: Imagine que realiza una búsqueda en Google de un tema determinado. La precisión mide cuántos de los enlaces arroja el motor de búsqueda realmente son importantes para los fines de su búsqueda. Recordar, por el contrario, mide cuántos enlaces relevantes se recuperaron de todos los documentos relevantes que potencialmente existen. De Google documentación sugiere pensar en la diferencia de esta manera:

Precisión: «¿Qué proporción de identificaciones positivas fue realmente correcta?» (98 por ciento, en este caso).

Recuerde: «¿Qué proporción de positivos reales se identificó correctamente?»

Existe una compensación entre precisión y recuperación. A veces, los dos se combinan en una métrica conocida como puntuación F, que mide la precisión de una prueba. No sabemos qué tipo de ponderaciones de puntuación F podría aplicar Google, pero una F1 la puntuación sería la media armónica de la precisión y la recuperación. Si introducimos los valores declarados por Google, la IA que construyó funciona apenas mejor que la probabilidad aleatoria, en 0.5158, donde un 1.0 indica precisión y recuperación perfectas, y un 0 indica que tiene un problema real con su tesis de posgrado. El modelo predeterminado con una recuperación del 20-25 por ciento funciona peor que la probabilidad aleatoria, con 0.3984.

Sin embargo, la publicación del blog de Google implica que los resultados de la compañía fueron mejores que el azar. La compañía escribe que el nuevo modelo de inteligencia artificial le permitió identificar las principales razones detrás de las fallas de las unidades, «permitiendo a los equipos de tierra tomar acciones proactivas para reducir las fallas en las operaciones antes de que ocurrieran».

Google no proporciona ninguna información contextual adicional sobre la tasa de recuperación que desea, o si el 35 por ciento es suficiente. Termina con: «Ya tenemos planes para expandir el sistema para admitir todas las unidades Seagate, ¡y estamos ansiosos por ver cómo esto beneficiará a nuestros OEM y nuestros clientes!»

En efecto. Todo lo que pueda ayudar a los fabricantes a detectar fallas en el disco duro antes de que ocurran será un producto popular.

Crédito: Patrick Lindenberg en Unsplash

Ahora lee: