Cómo DeepMind desarrolló una extraña auto-enseñanza A.I. Eso puede ser más inteligente que los humanos

$config[ads_kvadrat] not found

Язык Си для начинающих / #1 - Введение в язык Си

Язык Си для начинающих / #1 - Введение в язык Си

Tabla de contenido:

Anonim

Las computadoras han estado pateando nuestros frágiles culos humanos en el ajedrez durante un par de décadas. La primera vez que esto sucedió fue en 1996, cuando Deep Blue de IBM pudo derrotar al campeón mundial Gary Kasperov. Pero un nuevo estudio de A.I. de Alphabet. El equipo DeepMind arroja luz sobre cuán limitado en alcance fue realmente esa victoria temprana.

Por un lado, Kasperov se recuperó, ganando tres juegos y empatando dos veces en un playoff de seis juegos, por un viejo Noticias diarias informe.

Pero mucho más notablemente, como dice el investigador de DeepMind Julian Schrittwieser Inverso Las aplicaciones como Deep Blue también fueron programadas manualmente. Esto significa que los humanos tenían que enseñar el A.I. todo lo que necesitaba saber sobre cómo manejar cada contingencia imaginable. En otras palabras, solo podría ser tan bueno como la gente que lo programó. Y mientras Deep Blue era obviamente capaz de ser bastante bueno en el ajedrez; dale otro juego similar, como Go, y no habría tenido ni idea.

Alpha Zero es completamente diferente. En un nuevo estudio publicado hoy en la revista. Ciencia, los autores revelan cómo fueron capaces de no solo enseñar a Alpha Zero a vencer a los humanos en el ajedrez, sino también a Alpha Zero enseñarse a si mismo para dominar múltiples juegos.

Cómo enseñar A.I. Para enseñarse a si mismo

Alpha Zero fue desarrollado usando una técnica llamada aprendizaje de refuerzo profundo. Esencialmente, esto involucra enseñar el A.I. algo muy simple, como las reglas básicas del ajedrez, y luego hacer esa cosa simple una y otra y otra vez hasta que aprende cosas más complicadas e interesantes, como estrategias y técnicas.

"Tradicionalmente … los humanos tomarían su conocimiento sobre el juego e intentarían codificarlo en reglas", dice Schrittwieser, quien ha estado trabajando en Alpha Zero durante casi cuatro años, dice. "Nuestro enfoque es que iniciamos al azar, y luego lo dejamos jugar contra sí mismo, y desde esos juegos podemos aprender qué estrategias funcionan".

Todas las reglas básicas de Alpha Zero son, y desde allí aprende a ganar jugando solo. Según los nuevos hallazgos, Alpha Zero tardó solo nueve horas en dominar el ajedrez, 12 horas en dominar Shogi y unos 13 días en dominar Go. Porque está jugando en sí mismo, es esencialmente autodidacta. Se ha hecho un picado de todos los algoritmos guiados por humanos campeones del mundo, superando al campeón mundial de 2017 en Shogi el 91 por ciento de las veces.

"Puede descubrir de forma independiente conocimientos interesantes sobre el juego", dice Schrittwieser. "Conduce a programas que se parecen más a los humanos".

Aunque su estilo es humano y creativo, sin embargo, también es probable que sea óptimo, dice, lo suficiente como para que Alpha Zero pueda dominar en casi cualquier juego en el que tenga acceso a toda la información disponible. De hecho, Alpha Zero es tan sofisticado que es posible que tengamos que pasar a una clase de juegos completamente diferente para seguir superando los límites de cómo A.I. resuelve problemas

Por qué Alpa Zero es tan bueno

AI. a los investigadores les encanta usar estos juegos para probar formas de algoritmos cada vez más sofisticados por varias razones. Son elegantes, y la gente los ha estado jugando durante cientos de años, por un lado, lo que significa que tienes muchos desafiantes potenciales para probar tu algoritmo. Pero también son complicados e intrincados, lo que significa que pueden servir como un trampolín para A.I. Eso puede resolver problemas en el mundo real. Schrittwieser dice que la siguiente área de investigación es crear un algoritmo como Alpha Zero que aún pueda tomar decisiones óptimas con información imperfecta.

"En todos estos juegos, sabes todo lo que está sucediendo", dice. “En el mundo real, es posible que solo conozcas parte de la información. Es posible que conozca sus propias cartas, pero no conozca las de su oponente, tiene información parcial ".

Todavía hay algunos juegos de mesa capaces de dar a los algoritmos como Alpha Zero este tipo de desafío, como Schrittwieser mencionó a Stratego, en el que los jugadores se ocultan sus movimientos entre ellos, y Starcraft, que es otra área de interés para los investigadores centrados en los juegos de DeepMind.

"Queremos que los problemas que enfrentamos sean cada vez más complejos", dice. "Pero siempre es una dimensión a la vez".

Al mismo tiempo, la próxima generación de solucionadores de problemas computarizados de Deep Mind ya está mostrando el potencial para pasar del mundo de los juegos al mundo real. A principios de esta semana, anunció otro algoritmo llamado AlphaFold, que es capaz de extrapolar una secuencia de proteínas en una predicción precisa de su estructura 3D.Es un problema que ha aturdido a los científicos durante décadas y podría ayudar a abrir la puerta a curas para enfermedades que van desde el Alzheimer hasta la fibrosis quística.

$config[ads_kvadrat] not found