mercoledì 14 agosto 2024

Vocabolario dell'ingegneria dei dati

 

Ecco alcuni concetti e i termini chiave utilizzati nell'ingegneria dei dati, raccolti in una pagina per un facile riferimento.

Concetti fondamentali

Big Data: set di dati troppo grandi o complessi per il software di elaborazione dati tradizionale.

Data Pipeline: serie di passaggi di elaborazione dati dall'inserimento all'analisi.

ETL (Extract, Transform, Load): processo di estrazione dei dati dalle fonti, trasformazione e caricamento in una destinazione.

ELT (Extract, Load, Transform): variazione in cui i dati vengono caricati prima della trasformazione.

Data Lake: repository centralizzato per l'archiviazione di dati strutturati e non strutturati su larga scala.

Data Warehouse: sistema per l'archiviazione di dati strutturati e filtrati per analisi e reporting.

Data Mart: sottoinsieme di un data warehouse focalizzato su una specifica linea di business o team.

OLTP (Online Transaction Processing): sistemi che gestiscono applicazioni orientate alle transazioni.

OLAP (Online Analytical Processing): sistemi ottimizzati per query e analisi complesse.

CDC (Change Data Capture): CDC consente il monitoraggio delle operazioni di inserimento, aggiornamento ed eliminazione eseguite sui dati. 

SCD (Slowly Changing Dimensions): gli SCD vengono utilizzati per tracciare i cambiamenti storici negli attributi delle dimensioni. Esistono diversi tipi di SCD (Tipo 1, Tipo 2, Tipo 3, ecc.)


Data Modeling e architettura dei dati

Data Modeling: processo di creazione di un modello di dati per l'archiviazione in un database.

Fact Table: tabella centrale in un data warehouse che archivia dati quantitativi per l'analisi, in genere contenente metriche e chiavi esterne che si collegano alle tabelle delle dimensioni.

Dimension Table: fornisce attributi descrittivi correlati ai fatti nella tabella dei fatti, offrendo informazioni di contesto e di base per l'analisi e la creazione di report.

Schema: descrizione formale della struttura di un database.

Star Schema: schema del data warehouse con una tabella dei fatti centrale collegata alle tabelle delle dimensioni.

Snowflake Schema: variazione dello schema a stella con tabelle delle dimensioni normalizzate.

Data Architecture: progetto che definisce la struttura delle risorse di dati di un'organizzazione.

Master Data Management (MDM): metodo per definire e gestire dati critici.


Tecnologie di database

SQL (Structured Query Language): linguaggio standard per la gestione di database relazionali. 

NoSQL: database che archiviano e recuperano dati utilizzando modelli diversi dalle relazioni tabulari.

ACID: proprietà che garantiscono transazioni di database affidabili (atomicità, coerenza, isolamento, durata).

Possiamo includere DDL, DML ecc.

 

 

Elaborazione e analisi dei dati

Elaborazione batch: elaborazione di grandi quantità di dati contemporaneamente.

Elaborazione in streaming: elaborazione dei dati in piccoli blocchi man mano che arrivano.

Elaborazione in tempo reale: analisi e distribuzione simultanea dei risultati.

Architettura Lambda: architettura di elaborazione dei dati progettata per gestire grandi quantità di dati.

Architettura Kappa: architettura semplificata che tratta tutti i dati come un flusso.

MapReduce: modello di programmazione per l'elaborazione di grandi set di dati in parallelo.

Data Mining: processo di scoperta di modelli in grandi set di dati.

Machine Learning: utilizzo di algoritmi per migliorare le prestazioni di un'attività tramite l'esperienza.


Cloud e sistemi distribuiti

Cloud Computing: fornitura su richiesta di potenza di elaborazione, archiviazione di database, applicazioni e altre risorse IT.

Distributed Systems: sistemi i cui componenti sono posizionati su diversi computer in rete. Microservces: tecnica di sviluppo software in cui un'applicazione è strutturata come una raccolta di servizi debolmente accoppiati.

Serverless Computing: modello di esecuzione del cloud computing in cui il provider cloud gestisce l'infrastruttura del server.


Data Quality and Governance

Data Quality: misura delle condizioni dei dati, tra cui accuratezza, completezza, coerenza e affidabilità.

Data Governance: sistema di diritti decisionali e responsabilità per i processi correlati alle informazioni.

Data Lineage: ciclo di vita dei dati che include le loro origini e dove si spostano nel tempo.

Data Catalog: inventario di tutte le risorse di dati in un'organizzazione.


Performance e optimization

Indexing: tecnica per migliorare le prestazioni del database consentendo un recupero più rapido dei record.

Partitioning: divisione di tabelle di grandi dimensioni in parti più piccole e gestibili.

Sharding: partizionamento orizzontale dei dati in un database o motore di ricerca.

Caching: archiviazione dei dati a cui si accede di frequente nella memoria per un rapido recupero.

 

Varie

API (Application Programming Interface): set di protocolli per la creazione e l'integrazione di software applicativo. REST (Representational State Transfer): stile architettonico per sistemi ipermediali distribuiti.

GraphQL: linguaggio di query per API e runtime per l'esecuzione di tali query.

Blockchain: tecnologia di registro distribuito che mantiene un elenco di record in continua crescita.

IoT (Internet of Things): rete di dispositivi fisici incorporati con elettronica, software, sensori e connettività di rete.

 

Questo vocabolario copre un'ampia gamma di concetti e tecnologie rilevanti per l'ingegneria dei dati. La familiarità con questi termini fornirà una solida base per comprendere e discutere i concetti e le pratiche dell'ingegneria dei dati.

 

Nessun commento:

Posta un commento

Post più letti in assoluto