¿Puede la red neuronal "sobrehumana" de Google realmente indicar la ubicación de cualquier imagen?

$config[ads_kvadrat] not found
Anonim

Buscar imágenes es más fácil que nunca. Pero si está tratando de encontrar una imagen de algo en un lugar que no sea totalmente obvio (por lo tanto, no las pirámides egipcias o la escultura gigante del pulgar en París), es más difícil de lo que piensa, incluso con la información de geolocalización basada en lo que está en la imagen

Ingrese al ingeniero de Google llamado Tobias Weyand y un par de sus colegas. Según un nuevo artículo en la revista. arXiv (pronunciado "archivo"), el trío ha construido una máquina de aprendizaje profundo capaz de localizar la ubicación de casi cualquier foto basándose únicamente en el análisis de sus píxeles.

Para que una máquina logre con éxito una tarea como esta, debe darle la posibilidad de intuir información basada en pistas visuales. Quieres que piense, en otras palabras, como un ser humano.

Weyand se dispuso a desarrollar una red neuronal artificial: un sistema de máquina diseñado para imitar las vías neurológicas del cerebro, que le permite aprender, procesar y recordar información como un humano. Este nuevo sistema, PlaNet, es aparentemente capaz de superar a los humanos en la determinación de ubicaciones de imágenes sin importar la configuración, ya sea en interiores o exteriores, y presenta cualquier tipo de señales visuales únicas o no descriptivas.

¿Cómo funciona PlaNet? Weyand y su equipo dividieron un mapa del mundo en una cuadrícula que colocó más de 26,000 formas cuadradas en diferentes regiones, dependiendo de cuántas imágenes se tomaron en esos lugares. Los lugares densos donde se toman muchas imágenes caben en un cuadrado más pequeño, mientras que las regiones más grandes y remotas pueden cortar en cuadrados más grandes.

Luego, el equipo creó una gran base de datos de imágenes ya geolocalizadas: casi 126 millones de fotos diferentes. Alrededor de 91 millones se usaron como un conjunto de datos para enseñar a PlaNet cómo averiguar qué imagen podría colocarse en qué cuadrícula en el mapa mundial.

Luego, a la red neuronal se le asignó la tarea de geolocalizar los otros 34 millones de imágenes de la base de datos. Finalmente, PlaNet se estableció en un conjunto de datos de 2,3 millones de imágenes etiquetadas geográficamente de Flickr.

¿Los resultados? PlaNet podría determinar el país de origen para el 28,4 por ciento de las fotos y el continente para el 48 por ciento. Además, el sistema podría señalar una ubicación a nivel de calle para el 3.6 por ciento de las imágenes de Flickr, y la ubicación a nivel de ciudad para el 10.1 por ciento.

Y PlaNet es mejor en esto que la mayoría de los seres humanos, incluso los trotamundos más grandes. Weyand reclutó a 10 personas viajadas para competir contra PlaNet en un juego de etiquetado de ubicaciones de imágenes encontradas en Google Street View.

"En total, PlaNet ganó 28 de las 50 rondas con un error de localización promedio de 1131.7 km, mientras que el error de localización humano promedio fue de 2320.75 km", escribieron los investigadores. "Este experimento a pequeña escala muestra que PlaNet alcanza un rendimiento sobrehumano en la tarea de geolocalizar las escenas de Street View".

¿Esto es en serio? ¿Un ingeniero de Google realmente desarrolló un A.I. "sobrehumano"? ¿sistema?

Cuando se trata de geolocalizar imágenes, tal vez. Y eso no es del todo sorprendente: el punto de A.I. no es para imitar fundamentalmente al cerebro humano de todas las formas, sino superar las limitaciones humanas en algunas formas específicas para realizar tareas mucho más difíciles. Así que en ese sentido, lo que escriben los investigadores es cierto.

Aún así, es una exageración llamar a PlaNet una "red neuronal". Una forma ideal de ese tipo de tecnología sería capaz de aprender mucho más que la geolocalización de imágenes. AI. Los sistemas son capaces de escribir símiles y jugar. Super Mario, pero esto es algo pequeño comparado con un sistema "maestro" ideal que puede monitorear y mantener de manera automática los signos vitales, administrar el transporte o la infraestructura energética, y mucho más.

$config[ads_kvadrat] not found