Ecco come, in AGS, cerchiamo di supportare i nostri clienti a livello di consulenza adottando approcci innovativi e calati nella realtà del loro Business, sfruttando come prassi un sistema di gestione del dato totalmente innovativo.
Negli ultimi anni, la tendenza principale nella gestione dei dati è stata quella di creare un unico Data Lake centralizzato.
Tuttavia, se da un punto di vista squisitamente tecnico questo approccio può considerarsi vincente, l’esperienza ci ha insegnato che possono emergere criticità dal punto di vista di governance e di funzionalità.
La centralizzazione della gestione del dato tipica del Data Lake, infatti, ha sostanzialmente obbligato i team tecnici centrali responsabili a doversi far carico di una sempre più approfondita conoscenza di dominio funzionale, causando problemi di capacity del team e scalabilità dei progetti. Questo, tradotto i termini pratici, ha significato l’insorgere di alcune problematiche come:
Zhamak Dehghani
Questo nuovo paradigma, proposto da Zhamak Dehghani, si basa sostanzialmente sui seguenti concetti fondamentali:
Il primo punto, è un sostanziale ribaltamento della logica ETL con la responsabilità trasferita in capo al produttore del dato (non si parla più di estrazione ma di pubblicazione). Ciò non significa che i DB debbano trasformarsi necessariamente in microservizi ed API, ma anche semplicemente che esista in ogni Team produttore di dati, un Owner responsabile in grado di esporre dati e semantica relativa in maniera chiara e documentata.
In questo modo, chi si occupa di ETL nel team centralizzato, o in altri team consumatori, potrà usufruire del Prodotto Dato con semplicità ed autonomia, come recita il punto 2.
Il concetto espresso dal punto 3, ovvero quello di Self Service, consiste nella presenza di un catalogo in cui vengano delineati i termini di servizio dell’accesso al dato, come eventuali limiti tecnici del sistema feeder, dipendenze, documentazione sul dato stesso, metadati o use case di altri utenti.
All’interno di un’infrastruttura condivisa e governata in maniera federata da tutti gli stakeholders, che delineino le linee guida espresse nel punto 4 su qualità e formato condiviso degli elementi a catalogo, si genererà un continuo sforzo di standardizzazione della semantica dei prodotti esposti.
Risulta interessante, tra l’altro, come tale approccio sia naturalmente propedeutico a use cases che prevedano l’utilizzo di nuove tecnologie di apprendimento automatico e lo streaming dei dati in tempo reale. Dati chiaramente esposti ed omogenei, infatti, il cui significato semantico sia accessibile in maniera chiara e definita, sono il supporto ideale per l’addestramento e l’utilizzo di sistemi di Machine Learning.
Questo vale sia per algoritmi di Machine learning tradizionale, sia in ambito Natural Language Processing, in cui la base dati è tipicamente composta da più domini funzionali (Chatbot, Self – Service BI e Conversational BI).
In AGS, stiamo attivamente lavorando per lo sviluppo di tali sistemi e della razionalizzazione delle basi dati su cui essi operano.
Il Data Mesh, dunque, può offrire significativi vantaggi, il cui fine principale è quello di garantire congruità e stabilità del dato: ecco perché, per noi in AGS, risulta essere una sorta di vera e propria rivoluzione culturale in atto di cui beneficeranno anche i nostri Clienti.