La teoría de la relatividad de Einstein define el tiempo como una dimensión espacial, como la altura, la anchura y la profundidad. Pero a diferencia de esas otras dimensiones, el tiempo parece permitir el movimiento en una sola dirección: hacia adelante. Esta asimetría direccional - la "flecha del tiempo" - es una especie de enigma para la física teórica.
Un grupo internacional de científicos de la computación cree que podemos ver esa 'flecha del tiempo'. En la Conferencia sobre Visión por Ordenador y Reconocimiento de Patrones que se celebra este mes van a presentar un nuevo algoritmo que puede, con aproximadamente el 80 por ciento de precisión, determinar si un fragmento dado de vídeo se está reproduciendo hacia atrás o hacia adelante.
"Si ves que un reloj en una película va hacia atrás, eso requiere una comprensión de alto nivel de cómo los relojes se mueven normalmente", dice William Freeman, profesor de ciencias de la computación e ingeniería en el MIT (Instituto de Tecnología de Massachusetts) y uno de los autores del artículo. "Pero estábamos interesados en saber si podríamos saber la dirección del tiempo de las señales de bajo nivel, simplemente observando la forma en que el mundo se comporta".
Mediante la identificación de características sutiles pero intrínsecas de la experiencia visual, la investigación podría llevar a gráficos más realistas en los juegos y el cine. Pero Freeman dice que esa no era la motivación principal de los investigadores.
"Es un poco como aprender lo que es la estructura del mundo visual" dice. "Estudiando la percepción de la forma, es posible invertir una fotografía para hacer negro todo lo que es blanco, y viceversa, y luego comprobar lo que todavía se puede ver y lo que no se puede ver. Aquí se está haciendo algo similar: se da marcha atrás al tiempo para luego ver lo que se necesita para detectar ese cambio. Estamos tratando de comprender la naturaleza de la señal temporal".
Freeman y sus colaboradores diseñaron algoritmos candidatos que se acercaron al problema de tres maneras diferentes. Los tres algoritmos fueron entrenados en una serie de videos cortos que habían sido previamente identificados como hacia adelante o hacia atrás.
El algoritmo que realiza mejor su función empieza por dividir un fotograma de vídeo en una red de cientos de miles de cuadrados; a continuación, divide cada uno de esos cuadrados en una cuadrícula más pequeña de cuatro por cuatro. Para cada cuadrado de la cuadrícula más pequeña, determina la dirección y la distancia en que los grupos de píxeles se mueven de un fotograma al siguiente.
El algoritmo genera a continuación un "diccionario" de aproximadamente 4.000 rejillas de cuatro por cuatro, donde cada cuadrado en una cuadrícula representa direcciones y grados particulares de movimiento. Estas 4.000 y pico`palabras en el diccionario se eligen para ofrecer una buena aproximación de todas las rejillas en los datos de entrenamiento. Por último, el algoritmo peina a través de los ejemplos etiquetados para determinar si las combinaciones particulares de "palabras" tienden a indicar movimiento hacia adelante o hacia atrás.
Siguiendo la práctica habitual, los investigadores dividieron sus datos en tres conjunto: el entrenamiento secuencial del algoritmo en dos de los conjuntos y la prueba de su rentabilidad con la tercera. Las tasas de éxito del algoritmo fueron del 74 por ciento, 77 por ciento y 90 por ciento.
Un aspecto fundamental del algoritmo es que puede identificar las regiones específicas de un marco que se está utilizando para hacer sus juicios. El examen de las palabras que caracterizan a esas regiones podría revelar los tipos de señales visuales que el algoritmo utiliza - y tal vez los tipos de señales que el sistema visual humano utiliza también. http://www.europapress.es/ciencia/
No hay comentarios:
Publicar un comentario