En la categoría de Tecnologías de la Información y la Comunicación

Premio Fronteras del Conocimiento a Takeo Kanade por desarrollar fundamentos matemáticos en los que se basan la visión artificial y la percepción de los robots

El Premio Fundación BBVA Fronteras del Conocimiento en Tecnologías de la Información y la Comunicación ha sido concedido en su XVI edición al profesor Takeo Kanade por desarrollar fundamentos matemáticos en los que se basan las capacidades que poseen hoy los ordenadores y los robots para “comprender e interpretar imágenes y escenas visuales”, en palabras del jurado. Si hoy ya existen vehículos capaces de conducir de forma autónoma, robots que asisten a los cirujanos en toda clase de operaciones, sistemas de reconocimiento facial con los que accedemos a nuestros teléfonos móviles y retransmisiones deportivas que nos permiten disfrutar de la repetición de las mejores jugadas desde múltiples ángulos, todo esto se debe en buena medida a las contribuciones de este investigador japonés, Founders University Professor de Informática y Robótica de la Universidad Carnegie Mellon (Pittsburgh, EEUU).

7 febrero, 2024

Perfil

Takeo Kanade

A lo largo de las últimas cuatro décadas, el profesor Kanade “ha sido pionero en el estudio científico de la visión artificial”, al crear “los algoritmos fundacionales para la comprensión de imágenes, el procesamiento del movimiento y la percepción robótica”, afirma el acta del premio. Sus contribuciones “no solo han dado forma a las disciplinas científicas de la inteligencia artificial y la robótica, sino que también han transformado significativamente el mundo tecnológico en el que vivimos”, concluye el jurado.

El profesor Oussama Khatib, catedrático de Ciencias de la Computación y director del Laboratorio de Robótica en la Universidad de Stanford (Estados Unidos) y miembro del jurado, explica así la importancia de las contribuciones de Kanade: “La robótica se basa en la visión artificial para la percepción. De hecho, podemos definir la robótica como la conexión inteligente entre percepción y acción. Sin percepción, un robot no puede actuar en un entorno imprevisto y no estructurado. Por ejemplo, no podríamos construir ningún vehículo autónomo sin visión, para que sea capaz de evitar colisiones. El profesor Kanade desplazó las fronteras del conocimiento en este campo de una manera que nadie había logrado anteriormente, y la escuela de pensamiento que fundó ha sido muy importante para el desarrollo de la visión artificial y sus aplicaciones en la percepción robótica”.

“Me siento muy honrado de haber sido seleccionado para el prestigioso Premio Fronteras del Conocimiento y de que mi nombre se añada a la lista de los ilustres nombres de anteriores galardonados”, ha declarado el profesor Kanade, en una entrevista realizada poco después de conocer el fallo. “Como demuestra el hecho de que el córtex visual ocupe el área dominante del cerebro humano, la visión o el procesamiento de la información visual proporciona al ser humano el canal de información más rico e importante para la comprensión y la comunicación. La inteligencia artificial y los robots con capacidades de visión por ordenador similares o incluso mejores contribuyen a mejorar nuestras vidas. Veo muchas oportunidades”.

Los algoritmos que revolucionaron la visión artificial en tres dimensiones

Kanade revolucionó el campo de la visión artificial en tres dimensiones, al desarrollar algoritmos mucho más rápidos que los que existían hasta entonces y posibilitando por tanto un gran número de aplicaciones prácticas. Al igual que las personas y los animales necesitamos dos ojos para tener información de profundidad, la visión artificial en tres dimensiones solo es posible si se integran las imágenes procedentes de al menos dos cámaras. Sin embargo, los primeros algoritmos de visión artificial estaban pensados para procesar una sola imagen, y aplicarlos para integrar varias imágenes era un proceso demasiado lento como para utilizarse en la práctica.

Para procesar un vídeo grabado con una sola cámara (es decir, en dos dimensiones) y reconocer de manera automática las imágenes que contiene, puede ser factible analizar fotograma a fotograma para reconstruir los objetos que contiene y después deducir cómo se mueven estos objetos. Computar el movimiento de los puntos de la imagen, llamado flujo óptico, de manera precisa y rápida es fundamental para comprimir vídeos, así como para que un robot se pueda orientar en el entorno.

Sin embargo, este método es del todo inviable si cada fotograma procede de la integración de las imágenes grabadas por varias cámaras, ya que requiere una capacidad de computación excesiva. Kanade se dio cuenta de que, en lugar de integrar cada fotograma y después rastrear el movimiento de los objetos, sería mucho más rápido aprovechar la información del movimiento de los objetos que graba cada cámara para comprender cómo se mueve la imagen incluso antes de realizar la integración entre los vídeos de todas las cámaras. “Una vez que entendemos esto, ya no necesitamos enviar toda la información del color ni del vídeo, sino que basta con enviar simplemente el movimiento”, ha explicado.

Junto con su doctorando Bruce Lucas, desarrolló un nuevo método para estimar el flujo óptico que presentó en el VII Congreso Internacional Conjunto de Inteligencia Artificial (IJCAI), celebrado en 1981 en Vancouver, Canadá. El método, que desde entonces se conoce como método de Lucas-Kanade, capta también las formas de los objetos y permite deducir la velocidad y dirección de su movimiento. “Esa es la base de la codificación de vídeo, y mi algoritmo de flujo óptico se usa para prácticamente cualquier técnica de compresión de datos de imágenes en movimiento”, afirma el galardonado.

Aun así, las imágenes tridimensionales requieren una capacidad de computación mucho mayor que las de dos dimensiones, y Kanade también desarrolló una manera de simplificar drásticamente los cálculos que debe realizar el ordenador para procesarlas. Su contribución, realizada junto con su doctorando Carlo Tomasi y publicada en el International Journal of Computer Vision en 1992, hizo factible que los ordenadores de la época trabajaran con imágenes tridimensionales. “Este logro requirió un entendimiento excelente de las matemáticas, un gran rigor al resolver problemas, y también una cierta creatividad en la manera de emplear las herramientas matemáticas para resolver problemas físicos”, apunta Khatib.

Coches, helicópteros y drones capaces de orientarse de forma autónoma

Gracias a las técnicas que propuso Kanade, en 1995 dos investigadores de la Universidad de Carnegie Mellon recorrieron Estados Unidos de costa a costa por autopista en uno de los primeros vehículos autónomos jamás construidos, accionando manualmente el acelerador y el freno, pero sin apenas tocar el volante. El programa, al que llamaron No Hands Across America (“Cruzar América Sin Manos”), demostró que aquella furgoneta podía guiarse sola, empleando solo la información de sus cámaras.

Aunque los coches autónomos que ya pueden verse en entornos urbanos incorporan, además, estrategias para lidiar con las intenciones no conocidas de los peatones o de los conductores humanos de otros coches, esta furgoneta sentó las bases para guiar a los robots que operan en entornos controlados como restaurantes, aeropuertos o museos. Más recientemente, Kanade ha trabajado en el desarrollo de helicópteros autónomos capaces de rastrear un objetivo. “Si un helicóptero autónomo tiene que seguir un objetivo dentro de una escena, la visión artificial en tres dimensiones se emplea para localizar el objetivo y estudiar cómo se mueve”, expone el galardonado.

Además, las técnicas propuestas por el galardonado están presentes hoy en los drones y en todos los robots que incorporan capacidad de visión.

‘Realidad virtualizada’ para recrear en 360 grados las mejores jugadas de un partido

En 2001 la emisión televisiva de mayor audiencia en Estados Unidos, la final de la Super Bowl, presentó un avance técnico en el campo de la visión artificial que cambió para siempre la forma de retransmitir el deporte, y fue el propio profesor Kanade quien explicó a los espectadores en qué consistía este hito.

La nueva técnica permitía la recreación en 360 grados de una escena. Para obtener esta vista panorámica es necesario grabar la misma escena con varias cámaras, pero los métodos de Kanade permiten obtener imágenes de la escena desde un punto de vista en el que no se ha colocado ninguna de ellas, o bien reconstruir cualquier perspectiva a partir de un vídeo grabado por una cámara en movimiento. “Si tenemos una cámara que toma cuatro puntos de vista, cada 90 grados, a partir de ahí es capaz de hacer la reconstrucción de cómo se vería la escena desde otro punto de vista que no existe en la imagen real”, explica Fernando Torres Medina, catedrático de Ingeniería de Sistemas y Automática y director del Grupo de investigación en Automática, Robótica y Visión Artificial de la Universidad de Alicante, y nominador de Kanade. Esta es la base de la “realidad virtualizada”, que ha transformado las competiciones deportivas al permitir, por ejemplo, ver un partido de fútbol desde el punto de vista del balón o emplear el ojo de halcón en un partido de tenis.

“Cuando se acuñó el término de realidad virtual en los años 1990, la gente trabajaba sobre todo en crear mundos artificiales con gráficos por ordenador. Pero yo pensé que sería más interesante empezar con la realidad, es decir, introducir la realidad dentro del ordenador para volverla virtual”, recuerda Kanade. Para resaltar este aspecto y distinguir su propuesta de los mundos artificiales que comenzaban a emerger, el investigador acuñó el concepto de “realidad virtualizada”.

El sistema estrenado en la Super Bowl de 2001, denominado EyeVision, permitió por primera vez retransmitir por televisión una recreación panorámica de las jugadas más llamativas del partido. “El estadio tenía 33 cámaras en la grada superior, mirando al terreno de juego, y cuando se producía una jugada bonita el realizador podía generar una secuencia que diera la vuelta completa al jugador. Era igual que en la escena principal de la película Matrix, en la que la cámara parece rodear al personaje”, compara Kanade: “Y ahora esta repetición con vista de 360 grados se utiliza en casi cualquier deporte”.

Avances en cirugía robotizada y escáneres médicos

La visión artificial también se ha convertido en una tecnología clave en la cirugía robótica, un campo que se ha expandido en buena medida gracias a las técnicas desarrolladas por Kanade. “Cualquier operación que se realiza hoy con ayuda de robots en gran parte está basada en sus contribuciones”, señala Torres.

De hecho, el propio Kanade desarrolló con su equipo el primer sistema robotizado para la cirugía de prótesis de cadera, llamado HipNav, que logró una precisión mucho mayor en la colocación de la prótesis, disminuyendo el riesgo de efectos secundarios como la dislocación, mediante un procedimiento menos invasivo que el tradicional. La capacidad de seguir en tiempo real la posición exacta de la pelvis durante la cirugía fue clave para conseguir estos avances.

Además, gracias en buena medida a las contribuciones de Kanade, hoy ya es posible diseñar robots capaces de realizar algunas pruebas médicas sencillas, como ciertas ecografías, y detectar zonas sospechosas de presentar patologías. “En muchos pueblos no hay hospitales”, explica Khatib. “Así que estamos intentando crear clínicas pequeñas con un robot que pueda efectuar un análisis muy sencillo, y que a través de un algoritmo entienda si existen sospechas que hagan necesarias más pruebas”. El mismo robot, añade el investigador, se podría conectar a un hospital, por lejano que sea, para que un radiólogo lo controle de manera remota y sea posible realizar análisis más exhaustivos sin necesidad de que el paciente viaje.

Tecnologías concebidas para “mejorar la calidad de vida”

Mirando al futuro, Kanade confía en que su trabajo pueda contribuir en los próximos años al desarrollo de “tecnologías para mejorar la calidad de vida”, en particular a través de robots y dispositivos que “ayuden a las personas mayores o con discapacidad a vivir de manera independiente”. Además, prevé que sus investigaciones en el campo de la “realidad virtualizada” permitirán a las personas disfrutar de experiencias inmersivas cada vez más realistas en competiciones deportivas, conciertos y otros eventos culturales, sin salir de sus casas. “Esta tecnología”, señala, “no solo tiene aplicaciones en el ámbito del ocio y el entretenimiento, sino que puede ser de utilidad, por ejemplo, a la hora de coordinar la respuesta a desastres naturales, a través de recreaciones virtuales de las zonas afectadas por una catástrofe”.

Al mismo tiempo, Kanade admite que le preocupa el posible uso perverso que pueda hacerse de algunas tecnologías desarrolladas gracias a sus contribuciones. “Odio ver cómo se está aplicando la inteligencia artificial y la visión artificial a fenómenos como los vídeos falsos (deepfakes)”, lamenta. En 2010, el propio Kanade y sus colaboradores crearon un vídeo en el que se veía al presidente Obama hablando en japonés, en unas imágenes generadas a partir de una grabación del propio investigador. “Fue un experimento divertido, pero nuestra intención era seria y las aplicaciones que teníamos en mente eran importantes”, explica. “Por ejemplo, queríamos comprender mejor la expresividad del rostro humano y los efectos de ciertos gestos, como movimientos de la cabeza o de los ojos, para ayudar a las personas que tienen dificultades a la hora de comunicarse, o también nos planteábamos la creación de avatares para participar virtualmente en videoconferencias”.

En todo caso, Kanade confía en que la tecnología permita detectar los vídeos generados artificialmente, para evitar su uso malintencionado: “Debería ser fácil poder certificar si una imagen es auténtica o falsa, y colocar una marca de agua para identificar los fraudes. En cualquier caso, me entristece que esta tecnología pueda tener un potencial para hacer daño, debido al mal uso que algunos quieran hacer de ella”.

Nominador

En esta edición se recibieron 25 nominaciones. El investigador premiado fue nominado por Fernando Torres Medina, catedrático de Ingeniería de Sistemas y Automática y director del Grupo de investigación en Automática, Robótica y Visión Artificial de la Universidad de Alicante.

Jurado y Comité Técnico de Tecnologías de la Información y la Comunicación

El jurado de esta categoría ha estado presidido por Joos Vandewalle, presidente de honor de la Real Academia Flamenca de Ciencias y Artes de Bélgica y catedrático emérito del Departamento de Ingeniería Eléctrica de la Universidad Católica de Lovaina (Bélgica); y ha contado con Ron Ho, vicepresidente corporativo de Hardware en Lattice Semiconductor (Estados Unidos), como secretario. Los vocales han sido Georg Gottlob, catedrático de Informática en la Universidad de Calabria (Italia) y catedrático emérito de Informática en la Universidad de Oxford (Reino Unido); Oussama Khatib, catedrático de Ciencias de la Computación y director del Laboratorio de Robótica en la Universidad de Stanford (Estados Unidos); Rudolf Kruse, catedrático emérito en la Facultad de Ciencias de la Computación de la Universidad Otto von Guericke de Magdeburgo (Alemania); Mario Piattini, catedrático de Lenguajes y Sistemas Informáticos de la Universidad de Castilla-La Mancha; y Bernhard Schölkopf, director del Instituto Max Planck de Sistemas Inteligentes (Alemania) y del Departamento de Inferencia Empírica de esta institución, y premio Fronteras del Conocimiento 2019 en Tecnologías de la Información y la Comunicación.

En cuanto al Comité Técnico de Apoyo, ha estado coordinado por Marisol Martín González, coordinadora del Área Global Materia y profesora de investigación en el Instituto de Micro y Nanotecnología (IMN-CNM) del CSIC, e integrado por Alberto Ibáñez Rodríguez, científico titular en el Instituto de Tecnologías Físicas y de la Información Leonardo Torres Quevedo (ITEFI, CSIC); Luis Fonseca Chácharo, profesor de investigación y director del Instituto de Microelectrónica de Barcelona (IMB-CNM, CSIC); Felip Manyà Serres, investigador científico y vicedirector del Instituto de Investigación en Inteligencia Artificial (IIIA, CSIC); y José Javier Ramasco Sukia, coordinador adjunto del Área Global Materia y profesor de investigación en el Instituto de Física Interdisciplinar y Sistemas Complejos (IFISC, CSIC-UIB).

Sobre los Premios Fundación BBVA Fronteras del Conocimiento

La Fundación BBVA tiene como foco de su actividad el fomento de la investigación científica y la creación cultural de excelencia, así como el reconocimiento del talento.

Los Premios Fundación BBVA Fronteras del Conocimiento, dotados con 400.000 euros en cada una de sus ocho categorías, reconocen e incentivan contribuciones de singular impacto en la ciencia, la tecnología, las humanidades y la música, en especial aquellas que amplían significativamente el ámbito de lo conocido en una disciplina, hacen emerger nuevos campos o tienden puentes entre diversas áreas disciplinares. El objetivo de los galardones, desde su creación en 2008, es celebrar y promover el valor del conocimiento como un bien público sin fronteras, que beneficia a toda la humanidad porque es la mejor herramienta de la que disponemos para afrontar los grandes desafíos globales de nuestro tiempo y ampliar la visión del mundo de cada individuo. Sus ocho categorías atienden al mapa del conocimiento del siglo XXI, desde el conocimiento básico hasta los campos dedicados a entender e interaccionar el entorno natural, pasando por ámbitos en estrecha conexión, como la Biología y la Medicina o la Economía, las tecnologías de la información, las ciencias sociales y las humanidades, y un área universal del arte como la música.

En esta familia de premios la Fundación BBVA cuenta con la colaboración de la principal organización pública española de investigación, el Consejo Superior de Investigaciones Científicas (CSIC), que designa Comités Técnicos de Apoyo, integrados por destacados especialistas del correspondiente ámbito de conocimiento, que llevan a cabo la primera valoración de las candidaturas, elevando al jurado una propuesta razonada de finalistas. El CSIC designa, además, la presidencia de cada uno de los ocho jurados en las ocho categorías de los premios y colabora en la designación de todos sus integrantes, contribuyendo así a garantizar la objetividad en el reconocimiento de la innovación y excelencia científica.