Participantes
- ArTeCS UCM:聽Coordinador TIRADO FERN脕NDEZ, JOS脡 FRANCISCO. Universidad Complutense de Madrid / Facultad de Inform谩tica.
- ARCOS UC3M:聽Responsable CARRETERO P脡REZ, JESUS. Universidad Carlos III de Madrid / Escuela Polit茅cnica Superior.
- OEG UPM:聽Responsable P脡REZ HERN脕NDEZ, MAR脥A DE LOS SANTOS. Universidad Polit茅cnica de Madrid / E.T.S.I. Sistemas Inform谩ticos.
- SciTrack CIEMAT:聽Responsable MAYO GARC脥A, RAFAEL. Centro de Investigaciones Energ茅ticas,聽Medioambientales y Tecnol贸gicas / Centro de Investigaciones Energ茅ticas, Medioambientales y Tecnol贸gicas (CIEMAT).
Resumen
El ecosistema de la tecnolog铆a de la informaci贸n mundial se encuentra actualmente en transici贸n a una nueva generaci贸n de aplicaciones, que requieren sistemas intensivos de adquisici贸n, procesamiento y almacenamiento de datos, tanto a nivel de sensor como de c贸mputo. Las nuevas aplicaciones cient铆ficas, m谩s complejas, 聽y la creciente disponibilidad de datos generados por instrumentos cient铆ficos de alta resoluci贸n en dominios tan diversos como el clima, la energ铆a, la biomedicina, etc. hacen necesarias las sinergias entre la computaci贸n de alto rendimiento (HPC) y el an谩lisis de datos a gran escala (Big Data). Por tanto, el mundo HPC demanda t茅cnicas del 聽mundo Big Data, mientras que el an谩lisis intensivo de datos requiere t茅cnicas de HPC. Sin embargo, las herramientas y culturas de HPC y Big Data han divergido porque HPC se ha orientado tradicionalmente hacia problemas fuertemente acoplados de c贸mputo intensivo, mientras que Big Data se ha orientado hacia el an谩lisis de datos en aplicaciones altamente escalables. Debido a ello, el ecosistema descrito tiene importantes carencias a la hora de adecuar las aplicaciones Big Data sobre sistemas HPC emergentes, tales como rigidez de la jerarqu铆a de almacenamiento, dificultad para integrar flujos din谩micos de dispositivos externos, problemas de planificaci贸n con localidad de datos y costes energ茅ticos asociados al movimiento de datos.
El objetivo global de esta propuesta es mejorar la integraci贸n de los paradigmas de HPC y Big Data, proporcionando una forma f谩cil de crear software y adaptar el hardware y el software existente en una plataforma intensiva en computaci贸n y datos. La demostraci贸n del logro de ese objetivo ser谩 soportar aplicaciones de ambos mundos, ofreciendo elasticidad, mejorando la gesti贸n y captaci贸n de datos y optimizando las aplicaciones de nodos locales y n煤cleos para sistemas heterog茅neos. Para conseguir este objetivo global se plantean los siguientes objetivos espec铆ficos: 聽Dise帽o de un framework arquitect贸nico para la integraci贸n de entornos HPC y Big Data; Explotaci贸n de paralelismo a nivel de nodo y aceleradores; Gesti贸n y captaci贸n de datos masivos integrando sistemas heterog茅neos de gran escala y computaci贸n en los sensores; Desarrollo de mecanismos globales de eficiencia energ茅tica a nivel local y global; Aplicaci贸n de resultados a dos casos de uso reales para captaci贸n y modelado de datos de sensores para la predicci贸n de radiaci贸n solar con alta resoluci贸n espacio-temporal y para procesamiento de datos masivos en imagen m茅dica del cerebro.
El proyecto aglutina cuatro grupos de investigaci贸n con amplia experiencia en HPC y sistemas intensivos en datos, que cuenta con gran presencia nacional e internacional. Para conseguir los objetivos se plantea un plan de trabajo y actividades completo, incluyendo colaboraci贸n con entidades e investigadores internacionales de relieve, lo que permite asegurar que tendr谩 un enorme impacto en todos los 谩mbitos cient铆fico-tecnol贸gicos p煤blicos y privados dado que las soluciones aportadas por CABAHLA son totalmente interdisciplinares y adoptables en multitud de 谩reas (ver secci贸n 1.3).聽 El plan de actividades incluye difusi贸n cient铆fica de primera l铆nea con compromiso de 90 publicaciones, as铆 como la formaci贸n de 20 doctores y la contrataci贸n de 8 personas. Adem谩s, este proyecto potenciar谩 la presencia internacional del grupo, que ya colabora con m煤ltiples universidades y centros de investigaci贸n, lo que se plasmar谩 en propuestas de proyectos comunes.
Una muestra del inter茅s de nuestra propuesta es la existencia de un grupo de trabajo para la convergencia entre HPC y Big Data que sustentan ETP4HPC y BDVA en Europa, liderado por la Prof. Mar铆a S. P茅rez y en la que colaboran varios grupos de investigaci贸n del proyecto. Adem谩s, el Prof. Jes煤s Carretero colabora en la elaboraci贸n de la agenda estrat茅gica de investigaci贸n de la plataforma europea ETP4HPC en la l铆nea de aplicaciones intensivas en datos.
El posible impacto a nivel socio-econ贸mico se demuestra a trav茅s de las cartas de inter茅s en el proyecto de empresas 聽(IBM, Telef贸nica, Nokia, CA Technologies, HPE …) y entidades sin 谩nimo de lucro (Hospital General gregorio Mara帽贸n y CINVESTAV).
Summary
The global information technology ecosystem is currently in transition to a new generation of applications, which require intensive systems of acquisition, processing and data storage, both at the sensor and the computer level. The new scientific applications, more complex, and the increasing availability of data generated by high resolution scientific instruments in domains as diverse as climate, energy, biomedicine, etc., require the synergies between high performance computing (HPC) and large scale data analysis (Big Data). Today, the HPC world demands Big Data world techniques, while intensive data analysis requires HPC solutions. However, the tools and cultures of HPC and Big Data have diverged because HPC has traditionally focused on strongly coupled intensive computing problems, while Big Data has been geared towards data analysis in highly scalable applications. As a result, the ecosystem described has significant shortcomings when it comes to adapting Big Data applications on emerging HPC systems, such as lack of flexibility of the storage hierarchy, the difficulty integrating dynamic flows from external devices, problems for providing data locality aware schedulers, and energy costs associated with data movement.
The overall goal of this proposal is to improve the integration of the HPC and Big Data paradigms, providing a convenient way to create software and to adapt existing hardware and software intensive in computing and data on a HPC platform. The proof of the achievement of our objective will be the ability of the proposed platform to support applications from both worlds, offering elasticity, improving the management and data capture, and optimizing the applications of local nodes and cores for heterogeneous systems. To achieve this global objective, the following specific objectives are proposed: Design of an architectural framework for the integration of HPC and Big Data environments; Exploitation of parallelism at the node level and accelerators; Management and capture of massive data integrating large scale heterogeneous systems and computation in the sensors; Development of global energy efficiency mechanisms at the local and global levels; Application of results to two real use cases for capturing and modeling sensor data for the prediction of solar radiation with high spatio-temporal resolution and for processing massive data in brain’s medical images.
The project brings together four research groups, with vast experience in HPC and data-intensive systems, which has a strong national and international presence. To achieve the objectives, complete work and activities plans are proposed, including collaboration with international organizations and researchers, which makes it possible to ensure that the project will have an enormous scientific-technological impact in many public and private spheres, given that the solutions provided by CABAHLA are totally interdisciplinary and amenable to many areas (see Section 1.3). The plan of activities includes first line scientific dissemination, with commitment of 90 publications, as well as the training of 20 doctors and the hiring of 8 people. In addition, this project will enhance the international presence of the group, that already collaborates with multiple universities and research centers, which will be reflected in common project proposals.
A sample of the interest of our proposal is the existence in Europe of a working group for the convergence between HPC and Big Data supported by ETP4HPC and BDVA, led by Prof. Mar铆a S. P茅rez and with the cooperation of several research groups in this proposal. In addition, Prof. Jes煤s Carretero collaborates in the preparation of the strategic research agenda of the European platform ETP4HPC in the line of data-intensive applications.
The potential impact at the socio-economic level is demonstrated through the letters of interest in the project from 聽companies (IBM, Telef贸nica, Nokia, CA Technologies, HPE …) and non-profit organizations (Hospital General Gregorio Mara帽贸n and CINVESTAV ).