TODOS LOS TEMAS
Curiosidades

Hasta los robots aprenden más rápido cuando se utiliza la educación (canina) en positivo

Compartir
Whatsapp de SrPerro

Última actualización del articulo el día 01/11/2020

En este curioso experimento no participa ningún perro pero lo compartimos porque es una prueba, una más, de la importancia de la educación canina en positivo. Y es que resulta que Andrew Hundt y otros científicos de la Universidad Johns Hopkins decidieron "entrenar" a un robot llamado Spot utilizando justamente técnicas aprendidas de la educación canina en positivo y así comprobaron que Spot era capaz de aprender en días lo que normalmente llevaba meses.

Un experimento fascinante (que también da un poquito de miedo, si habéis visto Black Mirror, pero esa es otra historia)

Al utilizar el refuerzo positivo, explican, el equipo mejoró drásticamente las habilidades del robot y además lo hicieron con más rapidez, algo que podría traducirse en agilizar el entrenamiento de robots para diferentes tareas en el "mundo real"

¿Cómo conseguimos que el robot aprenda una habilidad?, se preguntaron los científicos. A diferencia de los humanos y los animales que nacen con cerebros altamente intuitivos, las computadoras son pizarras en blanco y deben aprender todo desde cero. Pero el verdadero aprendizaje a menudo se logra mediante prueba y error, y los especialistas en robótica todavía están descubriendo cómo los robots pueden aprender de manera eficiente de sus errores.

El equipo logró eso aquí al diseñar un sistema de recompensas que funciona para un robot de la forma en que las chuches funcionan para un perro.Donde un perro puede obtener un premio por un trabajo bien hecho, el robot gana puntos numéricos.

Para apilar bloques, Spot necesitaba aprender a concentrarse en acciones constructivas. A medida que el robot exploraba los bloques, rápidamente aprendió que los comportamientos correctos para apilar ganaban puntos altos, pero los incorrectos no ganaban nada.

¿Extiendes el brazo mecánico pero no agarras un bloque? Sin puntos. ¿Derribas una pila? Definitivamente sin puntos. Spot ganó más al colocar el último bloque encima de una pila de cuatro bloques.

La táctica de entrenamiento no solo funcionó sino que agilizó considerablemente el aprendizaje.

"El robot quiere la puntuación más alta", dijo Hundt."Aprende rápidamente el comportamiento correcto para obtener la mejor recompensa. De hecho, el robot solía necesitar un mes de práctica para lograr el 100% de precisión. Pudimos hacerlo en dos días".

El refuerzo positivo no solo sirvió para ayudar al robot a aprender a apilar bloques, con el sistema de puntos el robot aprendió con la misma rapidez varias otras tareas, incluso cómo jugar un juego de navegación simulado.

La capacidad de aprender de los errores en todo tipo de situaciones es fundamental para diseñar un robot que pueda adaptarse a nuevos entornos.

"Al principio, el robot no tiene idea de lo que está haciendo, pero mejora cada vez más con cada intento. Nunca se rinde y sigue tratando de apilar y es capaz de terminar la tarea el 100% del tiempo", explicó Andrew Hundt.

"Nuestro objetivo es eventualmente desarrollar robots que puedan realizar tareas complejas en el mundo real, como el ensamblaje de productos, el cuidado de los ancianos y la cirugía",dijo el profesor Gregory Hager, también co-autor de este estudio. "Actualmente no sabemos cómo programar tareas como esa, el mundo es demasiado complejo. Pero un trabajo como este nos muestra que es prometedora la idea de que los robots pueden aprender a realizar estas tareas del mundo real de forma segura y forma eficiente."

Lo dicho, fascinante y un poquito aterrador al mismo tiempo.

 

Te puede interesar