La incapacidad de una inteligencia cognitiva, ya sea humana o artificial, para distinguir entre la realidad y la realidad simulada ha sido acuñada como hiperrealidad en el discurso filosófico, primero por Baudrillard (1995).
Tanto los humanos como las máquinas informáticas pueden tener dificultades para diferenciar entre una fotografía y una imitación de una fotografía, ya sea como arte o como representación en 3D. Este argumento es evidente en los renders de edificios hiperrealistas (arquitectura digitalizada) y los edificios emblematicos (arquitectura construida) que son una práctica común en la industria de la arquitectura, la ingeniería y la construcción (AEC), que se ven incrementadas por un creciente interés en la realidad virtual y la realidad aumentada. realidad. Al considerar el hiperrealismo con la proliferación y el avance de la tecnología de inteligencia artificial para resolver tareas de cognición de las máquinas, el trabajo de los autores fue un intento de explotar la hiperrealidad entre representaciones fotorrealistas sintéticas y fotografías de edificios para enseñar a las máquinas a detectar objetos de construcción, tal como se define a través de BIM. Este intento constituye: explorar métodos para crear conjuntos de Data Sets automático que se basan en BIM y renderizado fotorrealista en lugar de anotaciones manuales, y probar dichos métodos utilizando la tecnología de Neural Networks actual.
La introducción de redes neuronales artificiales en el discurso arquitectónico es un fenómeno reciente que se debe a los recientes avances de las Deep Neural Networks en la resolución de tareas complejas de aprendizaje automático, allanando el camino hacia un nuevo paradigma de Deep Learning. Las redes neuronales están inspiradas en Neuronas Biológicas y, en cierto sentido, son un Modelo Abstracto del Cerebro.
Su estructura típica está compuesta por una capa de entrada de nodos, capas ocultas de nodos y una capa de salida con un solo nodo, con conexiones entre ellas que tienen pesos, que se multiplican y ajustan. Requieren formación mostrándoles muchos ejemplos. Un área donde las redes neuronales profundas han sobresalido es en las tareas de procesamiento de imágenes, que incluyen clasificación de imágenes, detección de objetos, segmentación semántica, traducción de imagen a imagen y generación de imágenes, entre otras tareas.
Dado que la arquitectura es un campo orientado visualmente, una parte importante del trabajo anterior estuvo interesada en utilizar estos modelos de aprendizaje profundo basados en imágenes dentro de este campo. Sin embargo, pocos han explorado el uso del conocimiento contenido en los modelos BIM digitales para entrenar modelos de Deep Learning.
En un trabajo, para el 2015, se utilizó datos basados en BIM para entrenar redes neuronales para garantizar la calidad del modelo BIM y la integridad de los datos. Así mismo en 2018 se desarrolló una metodología para entrenar redes neuronales utilizando modelos gráficos basados en BIM y puntuaciones subjetivas. Anteriormente no se exploró las aplicaciones de redes neuronales entrenadas con BIM en el entorno construido real; un área que interesa de ahora en mas para mejorar la real utilidad de la tecnología dirigida a la arquitectura e ingenieria.
En 2019 se propusieron usos de modelos BIM alineados con cámaras y fotografías de sitios de construcción para entrenar redes neuronales, aunque no se llevó a cabo ninguna capacitación. Estamos particularmente interesados en el uso de datos sintéticos para entrenar una red neuronal que se puede usar con datos del mundo real (es decir, fotografías). Cuando se le da una foto de ejemplo de un edificio, una red entrenada segmentaría la imagen en el edificio previsto. objetos. Esta aplicación sería útil para estudios de edificios y modelado energético de edificios BEM.
El potencial de las redes neuronales está limitado por la disponibilidad de datos de entrenamiento grandes y de alta calidad. Además, los datos web y las anotaciones manuales son los métodos de adquisición de datos dominantes en el reconocimiento visual.
Una idea de solución para este problema de adquisición de datos es utilizar BIM y renderizado fotorrealista para generar datos de entrenamiento. Al considerar la ubicuidad de BIM y la renderización 3D en el campo de la arquitectura, BIM puede generar datos de objetos de construcción que pueden usarse con representaciones fotorrealistas para entrenar una red neuronal.
Las representaciones 3D pueden ser imposibles de diferenciar de las fotografías, e incluso los programas informáticos pueden tener dificultades para diferenciarlas. Se utilizaron Synthetic data, en forma de representaciones 3D, para entrenar modelos de aprendizaje automático para comprender escenas arquitectónicas interiores. Los modelos de aprendizaje automático entrenados utilizando un conjunto de datos complementados con representaciones fotorrealistas pueden superar a los programas entrenados únicamente con fotografías etiquetadas a mano. Las representaciones fotorrealistas también redujeron la cantidad de fotografías anotadas manualmente necesarias para la capacitación. Las redes neuronales entrenadas en representaciones fotorrealistas pueden estimar con precisión la profundidad y la segmentación parcial en fotografías y pueden producir resultados cercanos o superiores al rendimiento de última generación.
Si bien investigaciones anteriores en otros campos han explorado el uso de datos sintéticos en forma de representaciones fotorrealistas anotadas para entrenar redes neuronales que puedan predecir objetos a partir de fotografías, no hay ningún ejemplo que utilice esto junto con BIM, un proceso orientado a objetos. Por lo tanto, se puede plantear la hipótesis de que una red neuronal entrenada con BIM y representaciones fotorrealistas de edificios funcionaría bien cuando se pruebe con fotografías de edificios. Demostrar que esta hipótesis es cierta significaría que se pueden aprovechar los modelos BIM disponibles y las representaciones de visualización que ya se utilizan en la industria AEC en lugar de etiquetar manualmente las fotografías de los edificios.
Para probar la hipótesis, las GAN condicionales son una variación de las CGAN, se pueden entrenar con pares de imágenes RGB de representaciones BIM y representaciones fotorrealistas para la segmentación semántica de objetos de construcción.
Las GAN son un tipo emergente de red neuronal que se basa en implementar dos redes neuronales que compiten en un juego de suma cero. Estas redes neuronales se configuran donde una red es un generador que crea muestras con la misma distribución que los datos de entrenamiento, mientras que otra red es un discriminador que determina si las muestras son reales o falsas. La red generadora está entrenada para engañar al discriminador. Las GAN tienen un gran potencial en el futuro de la tecnología de aprendizaje automático. Los CGAN son soluciones exitosas para problemas de procesamiento de imágenes que implican traducir una imagen de entrada en una imagen de salida correspondiente; por ejemplo, una imagen de la fachada de un edificio y una imagen de fachada etiquetada correspondiente.
Las GAN, a diferencia de las redes neuronales de segmentación semántica de última generación, se pueden utilizar para problemas de segmentación semántica además de otras tareas de traducción de imagen a imagen, lo que demuestra su aplicabilidad y flexibilidad para problemas arquitectónicos, incluido el diseño generativo, generación de imágenes urbanas previas a los imaginarios urbanos, estimación de profundidad y detección de elementos arquitectónicos a partir de fotografías, el proceso mas básico y elemental para analizar y planificar ciudades inteligentes.
La utilización de GAN para lograr la comprensión mecánica de los objetos básicos del entorno construido puede resultar útil para una multitud de tareas en condiciones del mundo real. Por ejemplo, una red neuronal entrenada para predecir objetos de construcción básicos a partir de fotografías se puede utilizar en fotografías de edificios adquiridas a partir de estudios de fotogrametría, ya que uno de los desafíos del BEM automatizado a partir de fotogrametría es la anotación de objetos de elementos de construcción básicos, como ventanas. Se puede utilizar la automatización del proceso de anotación mediante el aprendizaje automático en lugar de anotaciones manuales; por lo tanto, un modelo de construcción basado en fotogrametría anotado mediante una red neuronal puede resultar útil para producir modelos de construcción orientados a objetos, incluidos modelos BEM y BIM = CIUDADES VIVAS.
En el alcance de nuestro trabajo, abordamos el tema de la Anotación Manual en el Deep Learning mediante el desarrollo de métodos para la síntesis de datos derivados de datos BIM y renderizado fotorrealista. Experimentamos con un caso de prueba de muestra única de un edificio que incluye fotografías del lugar, un modelo BIM correspondiente y un modelo 3D fotorrealista de ese edificio. Luego, utilizamos el resultado de renderizado de nuestro sistema de síntesis de datos para entrenar una red neuronal. Evaluamos los resultados de las pruebas en fotografías en términos de qué tan bien se desempeñó la red y analizamos los métodos en términos de utilidad potencial para mapear el entorno construido y la creación automática de BIM a través del Deep Learning y la correcta interpretación de las herramientas y la madurez adecuada y real de los profesionales hasta la fecha…….
Know How y Madurez adquirida….
Se desarrollo un sistema utilizando herramientas de software BIM y 3D para generar datos de entrenamiento sintéticos para un modelo de red neuronal que realiza segmentación semántica en fotografías. El modelo de red elegido para probar la eficacia del sistema es pix2pix, un CGAN de última generación para la traducción de imagen a imagen: es decir, traduce una imagen RGB de entrada a una imagen RGB de salida correspondiente. En este caso, la red fue entrenada para traducir representaciones fotorrealistas a representaciones de identificación de color; es decir, la red se adaptó para la tarea de segmentación semántica, que consiste en segmentar una imagen de entrada en objetos etiquetados con colores. Este enfoque se utilizó para realizar una segmentación semántica basada en objetos de construcción, donde cada etiqueta de color corresponde a un objeto de construcción.
El sistema se probó con una muestra de edificio real: una casa de una sola planta con planta en forma de L que incluye cinco edificios circundantes. Los datos de entrenamiento sintéticos se generaron utilizando dos modelos 3D: un modelo BIM y un modelo fotorrealista correspondiente (basado en fotogrametría) del mismo edificio. Es posible generar los datos utilizando un único modelo BIM con materiales fotorrealistas; sin embargo, este enfoque no se adoptó en el alcance de este experimento.
Configurar el sistema para la síntesis de datos es un proceso de cuatro pasos: (1) asignar colores de objetos BIM, (2) ejecutar scripts para la alineación del modelo y (3) la cámara orbital, y (4) renderizar.
El proceso de flujo de trabajo de este sistema es el siguiente: utilizando 3ds Max, una herramienta de software 3D, se alineó un modelo de Revit importado de la muestra con el modelo fotorrealista. La alineación se realizó mediante un método de clic de tres puntos. Los objetos BIM importados; es decir, a las paredes, ventanas, puertas, columnas y techos se les asignaron colores RGB específicos definidos por el usuario, que son azul, cian, morado, rojo y verde, respectivamente. Se creó automáticamente una cámara animada que orbita alrededor de los modelos utilizando parámetros (posiciones 3D y distancia focal) derivados de los datos de la cámara del dron en el archivo de fotogrametría.
Dos instancias de la interfaz de usuario (UI) que ilustran las posiciones de la cámara y las vistas coincidentes con los modelos alineados donde (a) es el modelo fotorrealista y (b) es el modelo BIM importado (con el modelo fotorrealista oculto).
La cámara tiene un fotograma clave en cada segundo de la línea de tiempo de la animación, donde cada fotograma clave representa una vista de cámara diferente de los modelos para un total de 110 vistas. Se configuraron 38 estados de escena diferentes para el modelo fotorrealista para simular condiciones de iluminación según la ubicación y la hora del día con el fin de simular realismo en los datos de entrenamiento. La Figura 3 muestra muestras de renderizado del modelo fotorrealista en diferentes condiciones, donde cada imagen representa una hora del día con diferente iluminación y sombras. Dadas las grandes variaciones que se pueden producir con diferentes vistas e iluminación, el sistema aplica inherentemente un aumento de datos que a menudo se aplica a los datos de entrenamiento. Se configuró otro estado de escena para el modelo BIM importado y etiquetado con colores. Como resultados, se produjeron automáticamente representaciones fotorrealistas y representaciones con etiquetas de color correspondientes mediante un proceso de representación por lotes para los 39 estados de escena utilizando 3ds Max. En total, se renderizaron 4180 pares de imágenes de vistas fotorrealistas coincidentes y vistas de modelos con etiquetas de colores en 3 días utilizando una sola PC. Para trabajos futuros, esta duración se puede reducir drásticamente utilizando una Render Farm.
Las representaciones de salida de este sistema se procesaron para usarlas como datos de entrenamiento para la red neuronal. Cada par renderizado se redimensionó a dos cuadrados y se unieron (como entrada y salida de cuadrados de 256 píxeles) utilizando scripts de Python para entrenar la GAN para traducir las representaciones fotorrealistas a representaciones de color de objetos basadas en BIM.
En la siguientes ediciones vamos a dar nuevos puntos de experiencia que toman muchas ciudades del mundo y muchos estudios, para comenzar los procesos dinámicos del diseño y la construcción de Smart Cities.