CABAHLA-CM: ConvergenciA Big dAta-Hpc: de Los sensores a las Aplicaciones

Participantes

  • ArTeCS UCM: Coordinador TIRADO FERNÁNDEZ, JOSÉ FRANCISCO. Universidad Complutense de Madrid / Facultad de Informática.
  • ARCOS UC3M: Responsable CARRETERO PÉREZ, JESUS. Universidad Carlos III de Madrid / Escuela Politécnica Superior.
  • OEG UPM: Responsable PÉREZ HERNÁNDEZ, MARÍA DE LOS SANTOS. Universidad Politécnica de Madrid / E.T.S.I. Sistemas Informáticos.
  • SciTrack CIEMAT: Responsable MAYO GARCÍA, RAFAEL. Centro de Investigaciones Energéticas, Medioambientales y Tecnológicas / Centro de Investigaciones Energéticas, Medioambientales y Tecnológicas (CIEMAT).

Resumen

El ecosistema de la tecnología de la información mundial se encuentra actualmente en transición a una nueva generación de aplicaciones, que requieren sistemas intensivos de adquisición, procesamiento y almacenamiento de datos, tanto a nivel de sensor como de cómputo. Las nuevas aplicaciones científicas, más complejas,  y la creciente disponibilidad de datos generados por instrumentos científicos de alta resolución en dominios tan diversos como el clima, la energía, la biomedicina, etc. hacen necesarias las sinergias entre la computación de alto rendimiento (HPC) y el análisis de datos a gran escala (Big Data). Por tanto, el mundo HPC demanda técnicas del  mundo Big Data, mientras que el análisis intensivo de datos requiere técnicas de HPC. Sin embargo, las herramientas y culturas de HPC y Big Data han divergido porque HPC se ha orientado tradicionalmente hacia problemas fuertemente acoplados de cómputo intensivo, mientras que Big Data se ha orientado hacia el análisis de datos en aplicaciones altamente escalables. Debido a ello, el ecosistema descrito tiene importantes carencias a la hora de adecuar las aplicaciones Big Data sobre sistemas HPC emergentes, tales como rigidez de la jerarquía de almacenamiento, dificultad para integrar flujos dinámicos de dispositivos externos, problemas de planificación con localidad de datos y costes energéticos asociados al movimiento de datos.

El objetivo global de esta propuesta es mejorar la integración de los paradigmas de HPC y Big Data, proporcionando una forma fácil de crear software y adaptar el hardware y el software existente en una plataforma intensiva en computación y datos. La demostración del logro de ese objetivo será soportar aplicaciones de ambos mundos, ofreciendo elasticidad, mejorando la gestión y captación de datos y optimizando las aplicaciones de nodos locales y núcleos para sistemas heterogéneos. Para conseguir este objetivo global se plantean los siguientes objetivos específicos:  Diseño de un framework arquitectónico para la integración de entornos HPC y Big Data; Explotación de paralelismo a nivel de nodo y aceleradores; Gestión y captación de datos masivos integrando sistemas heterogéneos de gran escala y computación en los sensores; Desarrollo de mecanismos globales de eficiencia energética a nivel local y global; Aplicación de resultados a dos casos de uso reales para captación y modelado de datos de sensores para la predicción de radiación solar con alta resolución espacio-temporal y para procesamiento de datos masivos en imagen médica del cerebro.

El proyecto aglutina cuatro grupos de investigación con amplia experiencia en HPC y sistemas intensivos en datos, que cuenta con gran presencia nacional e internacional. Para conseguir los objetivos se plantea un plan de trabajo y actividades completo, incluyendo colaboración con entidades e investigadores internacionales de relieve, lo que permite asegurar que tendrá un enorme impacto en todos los ámbitos científico-tecnológicos públicos y privados dado que las soluciones aportadas por CABAHLA son totalmente interdisciplinares y adoptables en multitud de áreas (ver sección 1.3).  El plan de actividades incluye difusión científica de primera línea con compromiso de 90 publicaciones, así como la formación de 20 doctores y la contratación de 8 personas. Además, este proyecto potenciará la presencia internacional del grupo, que ya colabora con múltiples universidades y centros de investigación, lo que se plasmará en propuestas de proyectos comunes.

Una muestra del interés de nuestra propuesta es la existencia de un grupo de trabajo para la convergencia entre HPC y Big Data que sustentan ETP4HPC y BDVA en Europa, liderado por la Prof. María S. Pérez y en la que colaboran varios grupos de investigación del proyecto. Además, el Prof. Jesús Carretero colabora en la elaboración de la agenda estratégica de investigación de la plataforma europea ETP4HPC en la línea de aplicaciones intensivas en datos.

El posible impacto a nivel socio-económico se demuestra a través de las cartas de interés en el proyecto de empresas  (IBM, Telefónica, Nokia, CA Technologies, HPE …) y entidades sin ánimo de lucro (Hospital General gregorio Marañón y CINVESTAV).

Summary

The global information technology ecosystem is currently in transition to a new generation of applications, which require intensive systems of acquisition, processing and data storage, both at the sensor and the computer level. The new scientific applications, more complex, and the increasing availability of data generated by high resolution scientific instruments in domains as diverse as climate, energy, biomedicine, etc., require the synergies between high performance computing (HPC) and large scale data analysis (Big Data). Today, the HPC world demands Big Data world techniques, while intensive data analysis requires HPC solutions. However, the tools and cultures of HPC and Big Data have diverged because HPC has traditionally focused on strongly coupled intensive computing problems, while Big Data has been geared towards data analysis in highly scalable applications. As a result, the ecosystem described has significant shortcomings when it comes to adapting Big Data applications on emerging HPC systems, such as lack of flexibility of the storage hierarchy, the difficulty integrating dynamic flows from external devices, problems for providing data locality aware schedulers, and energy costs associated with data movement.

The overall goal of this proposal is to improve the integration of the HPC and Big Data paradigms, providing a convenient way to create software and to adapt existing hardware and software intensive in computing and data on a HPC platform. The proof of the achievement of our objective will be the ability of the proposed platform to support applications from both worlds, offering elasticity, improving the management and data capture, and optimizing the applications of local nodes and cores for heterogeneous systems. To achieve this global objective, the following specific objectives are proposed: Design of an architectural framework for the integration of HPC and Big Data environments; Exploitation of parallelism at the node level and accelerators; Management and capture of massive data integrating large scale heterogeneous systems and computation in the sensors; Development of global energy efficiency mechanisms at the local and global levels; Application of results to two real use cases for capturing and modeling sensor data for the prediction of solar radiation with high spatio-temporal resolution and for processing massive data in brain’s medical images.

The project brings together four research groups, with vast experience in HPC and data-intensive systems, which has a strong national and international presence. To achieve the objectives, complete work and activities plans are proposed, including collaboration with international organizations and researchers, which makes it possible to ensure that the project will have an enormous scientific-technological impact in many public and private spheres, given that the solutions provided by CABAHLA are totally interdisciplinary and amenable to many areas (see Section 1.3). The plan of activities includes first line scientific dissemination, with commitment of 90 publications, as well as the training of 20 doctors and the hiring of 8 people. In addition, this project will enhance the international presence of the group, that already collaborates with multiple universities and research centers, which will be reflected in common project proposals.
A sample of the interest of our proposal is the existence in Europe of a working group for the convergence between HPC and Big Data supported by ETP4HPC and BDVA, led by Prof. María S. Pérez and with the cooperation of several research groups in this proposal. In addition, Prof. Jesús Carretero collaborates in the preparation of the strategic research agenda of the European platform ETP4HPC in the line of data-intensive applications.

The potential impact at the socio-economic level is demonstrated through the letters of interest in the project from  companies (IBM, Telefónica, Nokia, CA Technologies, HPE …) and non-profit organizations (Hospital General Gregorio Marañón and CINVESTAV ).