La forma en que entrenamos a la IA es fundamentalmente defectuosa

El proceso utilizado para construir la mayoría de los modelos de aprendizaje automático que usamos hoy en día no puede decir si funcionarán en el mundo real o no, y eso es un problema.

No es ningún secreto que los modelos de aprendizaje automático ajustados y ajustados para un rendimiento casi perfecto en el laboratorio a menudo fallan en entornos reales. Esto generalmente se atribuye a una falta de coincidencia entre los datos en los que se entrenó y probó la IA y los datos que encuentra en el mundo, un problema conocido como cambio de datos. Por ejemplo, una IA entrenada para detectar signos de enfermedad en imágenes médicas de alta calidad tendrá problemas con imágenes borrosas o recortadas capturadas con una cámara barata en una clínica concurrida.

Ahora, un grupo de 40 investigadores de siete equipos diferentes en Google ha identificado otra causa importante del fracaso común de los modelos de aprendizaje automático. Llamado “subespecificación”, podría ser un problema aún mayor que el cambio de datos. “Estamos pidiendo más a los modelos de aprendizaje automático de lo que podemos garantizar con nuestro enfoque actual”, dice Alex D’Amour, quien dirigió el estudio.

La subespecificación es un problema conocido en las estadísticas, donde los efectos observados pueden tener muchas causas posibles. D’Amour, que tiene experiencia en razonamiento causal, quería saber por qué sus propios modelos de aprendizaje automático a menudo fallaban en la práctica. Se preguntó si la falta de especificación podría ser el problema aquí también. D’Amour pronto se dio cuenta de que muchos de sus colegas estaban notando el mismo problema en sus propios modelos. “En realidad, es un fenómeno que ocurre en todas partes”, dice.

La investigación inicial de D’Amour se disparó y docenas de investigadores de Google terminaron buscando una variedad de aplicaciones de inteligencia artificial diferentes, desde el reconocimiento de imágenes hasta el procesamiento del lenguaje natural (PNL) y la predicción de enfermedades. Descubrieron que la falta de especificación era la culpable del bajo rendimiento en todos ellos. El problema radica en la forma en que se entrenan y prueban los modelos de aprendizaje automático, y no hay una solución fácil.

El documento es una “bola de demolición”, dice Brandon Rohrer, un ingeniero de aprendizaje automático en iRobot, que anteriormente trabajó en Facebook y Microsoft y no participó en el trabajo.

.

Lo mismo pero diferente
Para comprender exactamente lo que está sucediendo, debemos retroceder un poco. En pocas palabras, la construcción de un modelo de aprendizaje automático implica entrenarlo en una gran cantidad de ejemplos y luego probarlo en un montón de ejemplos similares que aún no ha visto. Cuando el modelo pase la prueba, habrá terminado.

Lo que señalan los investigadores de Google es que esta barra es demasiado baja. El proceso de entrenamiento puede producir muchos modelos diferentes que pasan la prueba pero, y esta es la parte crucial, estos modelos diferirán en formas pequeñas y arbitrarias, dependiendo de cosas como los valores aleatorios dados a los nodos en una red neuronal antes de que comience el entrenamiento. , la forma en que se seleccionan o representan los datos de entrenamiento, el número de ejecuciones de entrenamiento, etc. Estas pequeñas diferencias, a menudo aleatorias, generalmente se pasan por alto si no afectan el desempeño de un modelo en la prueba. Pero resulta que pueden provocar una gran variación en el rendimiento en el mundo real.

En otras palabras, el proceso que se utiliza para crear la mayoría de los modelos de aprendizaje automático en la actualidad no puede decir qué modelos funcionarán en el mundo real y cuáles no.

Esto no es lo mismo que el cambio de datos, donde el entrenamiento no produce un buen modelo porque los datos de entrenamiento no coinciden con los ejemplos del mundo real. La subespecificación significa algo diferente: incluso si un proceso de entrenamiento puede producir un buen modelo, aún podría escupir uno malo porque no notará la diferencia. Nosotros tampoco.

Los investigadores analizaron el impacto de la subespecificación en varias aplicaciones diferentes. En cada caso, utilizaron los mismos procesos de capacitación para producir múltiples modelos de aprendizaje automático y luego ejecutaron esos modelos a través de pruebas de estrés diseñadas para resaltar diferencias específicas en su desempeño.

.

La IA está luchando con una crisis de replicación

Los gigantes tecnológicos dominan la investigación, pero la línea entre el avance real y la exhibición de productos puede ser difusa. Algunos científicos han tenido suficiente.

Por ejemplo, entrenaron 50 versiones de un modelo de reconocimiento de imágenes en ImageNet, un conjunto de datos de imágenes de objetos cotidianos. La única diferencia entre las ejecuciones de entrenamiento fueron los valores aleatorios asignados a la red neuronal al principio. Sin embargo, a pesar de que los 50 modelos obtuvieron más o menos la misma puntuación en la prueba de entrenamiento, lo que sugiere que eran igualmente precisos, su rendimiento varió enormemente en la prueba de esfuerzo.

La prueba de esfuerzo utilizó ImageNet-C, un conjunto de datos de imágenes de ImageNet que se han pixelado o han alterado su brillo y contraste, y ObjectNet, un conjunto de datos de imágenes de objetos cotidianos en poses inusuales, como sillas boca abajo, boca abajo. teteras y camisetas colgadas de ganchos. A algunos de los 50 modelos les fue bien con imágenes pixeladas, a otros les fue bien con poses inusuales; algunos lo hicieron mucho mejor en general que otros. Pero en lo que respecta al proceso de formación estándar, todos eran iguales.

Los investigadores llevaron a cabo experimentos similares con dos sistemas de PNL diferentes y tres IA médicos para predecir enfermedades oculares a partir de escáneres de retina, cáncer de lesiones cutáneas e insuficiencia renal a partir de registros de pacientes. Todos los sistemas tenían el mismo problema: los modelos que deberían haber sido igualmente precisos se desempeñaron de manera diferente cuando se probaron con datos del mundo real, como diferentes escaneos de retina o tipos de piel.

Podríamos necesitar repensar cómo evaluamos las redes neuronales, dice Rohrer. “Hace algunos agujeros importantes en las suposiciones fundamentales que hemos estado haciendo”.

D’Amour está de acuerdo. “La conclusión más importante e inmediata es que tenemos que hacer muchas más pruebas”, dice. Sin embargo, eso no será fácil. Las pruebas de estrés se adaptaron específicamente a cada tarea, utilizando datos tomados del mundo real o datos que imitaban el mundo real. Esto no siempre está disponible.

Algunas pruebas de estrés también están en desacuerdo entre sí: los modelos que eran buenos para reconocer imágenes pixeladas a menudo eran malos para reconocer imágenes con alto contraste, por ejemplo. Puede que no siempre sea posible entrenar un solo modelo que pase todas las pruebas de resistencia.

.

Opción multiple

Una opción es diseñar una etapa adicional al proceso de capacitación y prueba, en la que se producen muchos modelos a la vez en lugar de solo uno. Estos modelos de la competencia se pueden probar nuevamente en tareas específicas del mundo real para seleccionar el mejor para el trabajo.

Eso es mucho trabajo. Pero para una empresa como Google, que construye e implementa grandes modelos, podría valer la pena, dice Yannic Kilcher, investigador de aprendizaje automático en ETH Zurich. Google podría ofrecer 50 versiones diferentes de un modelo de PNL y los desarrolladores de aplicaciones podrían elegir la que funcionara mejor para ellos, dice.

D’Amour y sus colegas aún no tienen una solución, pero están explorando formas de mejorar el proceso de capacitación. “Necesitamos mejorar a la hora de especificar exactamente cuáles son nuestros requisitos para nuestros modelos”, dice. “Porque a menudo lo que acaba sucediendo es que descubrimos estos requisitos solo después de que el modelo ha fallado en el mundo”.

Obtener una solución es vital para que la IA tenga tanto impacto fuera del laboratorio como dentro. Cuando la IA tiene un rendimiento inferior en el mundo real, la gente está menos dispuesta a querer usarla, dice la coautora Katherine Heller, que trabaja en Google en IA para el cuidado de la salud: “Hemos perdido mucha confianza en lo que respecta al asesino aplicaciones, eso es una confianza importante que queremos recuperar “.
.
por Will Douglas Heavenarchive page, 18 de noviembre de 2020, Publicado en MIT

Recent Posts