Ecco alcuni concetti e i termini chiave utilizzati nell'ingegneria dei dati, raccolti in una pagina per un facile riferimento.
Concetti fondamentali
Big Data: set di dati troppo grandi o complessi per il software di elaborazione dati tradizionale.
Data Pipeline: serie di passaggi di elaborazione dati dall'inserimento all'analisi.
ETL (Extract, Transform, Load): processo di estrazione dei dati dalle fonti, trasformazione e caricamento in una destinazione.
ELT (Extract, Load, Transform): variazione in cui i dati vengono caricati prima della trasformazione.
Data Lake: repository centralizzato per l'archiviazione di dati strutturati e non strutturati su larga scala.
Data Warehouse: sistema per l'archiviazione di dati strutturati e filtrati per analisi e reporting.
Data Mart: sottoinsieme di un data warehouse focalizzato su una specifica linea di business o team.
OLTP (Online Transaction Processing): sistemi che gestiscono applicazioni orientate alle transazioni.
OLAP (Online Analytical Processing): sistemi ottimizzati per query e analisi complesse.
CDC (Change Data Capture): CDC consente il monitoraggio delle operazioni di inserimento, aggiornamento ed eliminazione eseguite sui dati.
SCD (Slowly Changing Dimensions): gli SCD vengono utilizzati per tracciare i cambiamenti storici negli attributi delle dimensioni. Esistono diversi tipi di SCD (Tipo 1, Tipo 2, Tipo 3, ecc.)
Data Modeling e architettura dei dati
Data Modeling: processo di creazione di un modello di dati per l'archiviazione in un database.
Fact Table: tabella centrale in un data warehouse che archivia dati quantitativi per l'analisi, in genere contenente metriche e chiavi esterne che si collegano alle tabelle delle dimensioni.
Dimension Table: fornisce attributi descrittivi correlati ai fatti nella tabella dei fatti, offrendo informazioni di contesto e di base per l'analisi e la creazione di report.
Schema: descrizione formale della struttura di un database.
Star Schema: schema del data warehouse con una tabella dei fatti centrale collegata alle tabelle delle dimensioni.
Snowflake Schema: variazione dello schema a stella con tabelle delle dimensioni normalizzate.
Data Architecture: progetto che definisce la struttura delle risorse di dati di un'organizzazione.
Master Data Management (MDM): metodo per definire e gestire dati critici.
Tecnologie di database
SQL (Structured Query Language): linguaggio standard per la gestione di database relazionali.
NoSQL: database che archiviano e recuperano dati utilizzando modelli diversi dalle relazioni tabulari.
ACID: proprietà che garantiscono transazioni di database affidabili (atomicità, coerenza, isolamento, durata).
Possiamo includere DDL, DML ecc.
Elaborazione e analisi dei dati
Elaborazione batch: elaborazione di grandi quantità di dati contemporaneamente.
Elaborazione in streaming: elaborazione dei dati in piccoli blocchi man mano che arrivano.
Elaborazione in tempo reale: analisi e distribuzione simultanea dei risultati.
Architettura Lambda: architettura di elaborazione dei dati progettata per gestire grandi quantità di dati.
Architettura Kappa: architettura semplificata che tratta tutti i dati come un flusso.
MapReduce: modello di programmazione per l'elaborazione di grandi set di dati in parallelo.
Data Mining: processo di scoperta di modelli in grandi set di dati.
Machine Learning: utilizzo di algoritmi per migliorare le prestazioni di un'attività tramite l'esperienza.
Cloud e sistemi distribuiti
Cloud Computing: fornitura su richiesta di potenza di elaborazione, archiviazione di database, applicazioni e altre risorse IT.
Distributed Systems: sistemi i cui componenti sono posizionati su diversi computer in rete. Microservces: tecnica di sviluppo software in cui un'applicazione è strutturata come una raccolta di servizi debolmente accoppiati.
Serverless Computing: modello di esecuzione del cloud computing in cui il provider cloud gestisce l'infrastruttura del server.
Data Quality and Governance
Data Quality: misura delle condizioni dei dati, tra cui accuratezza, completezza, coerenza e affidabilità.
Data Governance: sistema di diritti decisionali e responsabilità per i processi correlati alle informazioni.
Data Lineage: ciclo di vita dei dati che include le loro origini e dove si spostano nel tempo.
Data Catalog: inventario di tutte le risorse di dati in un'organizzazione.
Performance e optimization
Indexing: tecnica per migliorare le prestazioni del database consentendo un recupero più rapido dei record.
Partitioning: divisione di tabelle di grandi dimensioni in parti più piccole e gestibili.
Sharding: partizionamento orizzontale dei dati in un database o motore di ricerca.
Caching: archiviazione dei dati a cui si accede di frequente nella memoria per un rapido recupero.
Varie
API (Application Programming Interface): set di protocolli per la creazione e l'integrazione di software applicativo. REST (Representational State Transfer): stile architettonico per sistemi ipermediali distribuiti.
GraphQL: linguaggio di query per API e runtime per l'esecuzione di tali query.
Blockchain: tecnologia di registro distribuito che mantiene un elenco di record in continua crescita.
IoT (Internet of Things): rete di dispositivi fisici incorporati con elettronica, software, sensori e connettività di rete.
Questo vocabolario copre un'ampia gamma di concetti e tecnologie rilevanti per l'ingegneria dei dati. La familiarità con questi termini fornirà una solida base per comprendere e discutere i concetti e le pratiche dell'ingegneria dei dati.
Nessun commento:
Posta un commento
Esprimi il tuo pensiero