AI4ES: ¿En qué estamos trabajando en el OT1 Data Analytics?
EURECAT
10/05/2023

En el Objetivo tecnológico Data Analytics (OT1) investigamos sobre la influencia de la calidad de los datos en modelos de aprendizaje profundo, relacionados con su heterogeneidad y anomalías (faltantes, insuficientes, no significativos o erróneos), así como en modelos generativos que puedan ayudar al control o a la escasez de estos en determinadas áreas donde su adquisición es costosa.
En situaciones reales es habitual encontrarse con escasez y mala calidad de datos, de manera que no puedan describir suficientemente el problema de aprendizaje. Esta situación es mucho más limitante en el uso de técnicas de aprendizaje profundo (Deep Learning) donde la necesitad de datos es todavía mayor. La investigación de modelos robustos que puedan rendir eficientemente en estas situaciones tiene un gran valor para el desarrollo de herramientas fiables de análisis y detección en situaciones reales.
En este objetivo tecnológico participan los 4 centros de la red AI4ES y se han definido 3 líneas de investigación:
1.1 Mejora de la calidad de los datos en Aprendizaje Automático, incluyendo generación de datos sintéticos. Los trabajos en esta línea se han centrado en la mejora de técnicas de imputación en datos tabulares del tipo SNP (Single Nucleotide Polymorphism) y selección de características para la mejora de la detección de patologías, así como en modelos de detección de anomalías mediante la caracterización acústica de piezas en procesos de fabricación. También se ha implementado una plataforma para facilitar la aplicación de técnicas de mejora de la calidad de los datos y pre-procesado en múltiples formatos (estructurado, texto, audio e imagen).
1.2 Redes neuronales para transformación entre dominios. En esta línea se ha trabajado en la implementación de modelos generativos adversarios para la transformación de texto a audio y de audio a imagen/video, en particular para la mejora de la calidad y alta resolución. También se han desarrollado modelos convolucionales para la síntesis de texto mediante el reconocimiento del habla en sistemas propietarios para castellano, trabajando además en diferentes técnicas de representación eficiente de señales de audio. También se ha trabajo en la adaptación de arquitecturas recurrentes para la transferencia de aprendizaje en situaciones industriales altamente cambiantes, en base a modelos de detección de derivas, así como para la predicción de tráfico rodado.
1.3 Mejoras de la calidad de los Modelos Generativos (GANs). En esta línea se ha trabajado en el desarrollo de modelos generativos profundos adversarios para mejorar su capacidad de generar datos temporalmente coherentes, como es el caso de generación de video a partir de audio. Estas técnicas tienen aplicación muy transversal en varios sectores que requieren regeneración sintética de datos, donde casos de aplicación particulares que se están estudiando son la predicción de video o caracterización del comportamiento de baterías eléctricas.