Passa ai contenuti principali

Vocabolario dell'ingegneria dei dati

 

Ecco alcuni concetti e i termini chiave utilizzati nell'ingegneria dei dati, raccolti in una pagina per un facile riferimento.

Concetti fondamentali

Big Data: set di dati troppo grandi o complessi per il software di elaborazione dati tradizionale.

Data Pipeline: serie di passaggi di elaborazione dati dall'inserimento all'analisi.

ETL (Extract, Transform, Load): processo di estrazione dei dati dalle fonti, trasformazione e caricamento in una destinazione.

ELT (Extract, Load, Transform): variazione in cui i dati vengono caricati prima della trasformazione.

Data Lake: repository centralizzato per l'archiviazione di dati strutturati e non strutturati su larga scala.

Data Warehouse: sistema per l'archiviazione di dati strutturati e filtrati per analisi e reporting.

Data Mart: sottoinsieme di un data warehouse focalizzato su una specifica linea di business o team.

OLTP (Online Transaction Processing): sistemi che gestiscono applicazioni orientate alle transazioni.

OLAP (Online Analytical Processing): sistemi ottimizzati per query e analisi complesse.

CDC (Change Data Capture): CDC consente il monitoraggio delle operazioni di inserimento, aggiornamento ed eliminazione eseguite sui dati. 

SCD (Slowly Changing Dimensions): gli SCD vengono utilizzati per tracciare i cambiamenti storici negli attributi delle dimensioni. Esistono diversi tipi di SCD (Tipo 1, Tipo 2, Tipo 3, ecc.)


Data Modeling e architettura dei dati

Data Modeling: processo di creazione di un modello di dati per l'archiviazione in un database.

Fact Table: tabella centrale in un data warehouse che archivia dati quantitativi per l'analisi, in genere contenente metriche e chiavi esterne che si collegano alle tabelle delle dimensioni.

Dimension Table: fornisce attributi descrittivi correlati ai fatti nella tabella dei fatti, offrendo informazioni di contesto e di base per l'analisi e la creazione di report.

Schema: descrizione formale della struttura di un database.

Star Schema: schema del data warehouse con una tabella dei fatti centrale collegata alle tabelle delle dimensioni.

Snowflake Schema: variazione dello schema a stella con tabelle delle dimensioni normalizzate.

Data Architecture: progetto che definisce la struttura delle risorse di dati di un'organizzazione.

Master Data Management (MDM): metodo per definire e gestire dati critici.


Tecnologie di database

SQL (Structured Query Language): linguaggio standard per la gestione di database relazionali. 

NoSQL: database che archiviano e recuperano dati utilizzando modelli diversi dalle relazioni tabulari.

ACID: proprietà che garantiscono transazioni di database affidabili (atomicità, coerenza, isolamento, durata).

Possiamo includere DDL, DML ecc.

 

 

Elaborazione e analisi dei dati

Elaborazione batch: elaborazione di grandi quantità di dati contemporaneamente.

Elaborazione in streaming: elaborazione dei dati in piccoli blocchi man mano che arrivano.

Elaborazione in tempo reale: analisi e distribuzione simultanea dei risultati.

Architettura Lambda: architettura di elaborazione dei dati progettata per gestire grandi quantità di dati.

Architettura Kappa: architettura semplificata che tratta tutti i dati come un flusso.

MapReduce: modello di programmazione per l'elaborazione di grandi set di dati in parallelo.

Data Mining: processo di scoperta di modelli in grandi set di dati.

Machine Learning: utilizzo di algoritmi per migliorare le prestazioni di un'attività tramite l'esperienza.


Cloud e sistemi distribuiti

Cloud Computing: fornitura su richiesta di potenza di elaborazione, archiviazione di database, applicazioni e altre risorse IT.

Distributed Systems: sistemi i cui componenti sono posizionati su diversi computer in rete. Microservces: tecnica di sviluppo software in cui un'applicazione è strutturata come una raccolta di servizi debolmente accoppiati.

Serverless Computing: modello di esecuzione del cloud computing in cui il provider cloud gestisce l'infrastruttura del server.


Data Quality and Governance

Data Quality: misura delle condizioni dei dati, tra cui accuratezza, completezza, coerenza e affidabilità.

Data Governance: sistema di diritti decisionali e responsabilità per i processi correlati alle informazioni.

Data Lineage: ciclo di vita dei dati che include le loro origini e dove si spostano nel tempo.

Data Catalog: inventario di tutte le risorse di dati in un'organizzazione.


Performance e optimization

Indexing: tecnica per migliorare le prestazioni del database consentendo un recupero più rapido dei record.

Partitioning: divisione di tabelle di grandi dimensioni in parti più piccole e gestibili.

Sharding: partizionamento orizzontale dei dati in un database o motore di ricerca.

Caching: archiviazione dei dati a cui si accede di frequente nella memoria per un rapido recupero.

 

Varie

API (Application Programming Interface): set di protocolli per la creazione e l'integrazione di software applicativo. REST (Representational State Transfer): stile architettonico per sistemi ipermediali distribuiti.

GraphQL: linguaggio di query per API e runtime per l'esecuzione di tali query.

Blockchain: tecnologia di registro distribuito che mantiene un elenco di record in continua crescita.

IoT (Internet of Things): rete di dispositivi fisici incorporati con elettronica, software, sensori e connettività di rete.

 

Questo vocabolario copre un'ampia gamma di concetti e tecnologie rilevanti per l'ingegneria dei dati. La familiarità con questi termini fornirà una solida base per comprendere e discutere i concetti e le pratiche dell'ingegneria dei dati.

 

Commenti

Post popolari in questo blog

Siti interessanti da esplorare

  Ecco alcuni siti web utili e interessanti da provare. Iniziando con un sito web che offre informazioni sui cambiamenti nel mondo e concludendo con un sito web per assicurarti che il tuo dispositivo e i tuoi file siano sicuri. Our World In Data — Our World in Data ( ourworldindata.org ) è un sito web molto affascinante per coloro che sono interessati a conoscere i cambiamenti che avvengono intorno a noi in una forma user-friendly di grafici e diagrammi colorati. Ci sono diversi argomenti come Popolazione, Salute, Ambiente, Innovazione e molto altro. Questo ci aiuta a capire come il mondo sta cambiando nel tempo e le implicazioni che ne derivano. Non ho la TV - I Have No TV ( ihavenotv.com ) è un sito web di streaming diverso da quelli che vediamo adesso, pieno di paywall e contenuti distraenti. Non ha niente a che vedere con il Netflix o il Prime Video del mondo. Questo mira a fornire contenuti utili al suo pubblico senza alcun costo o abbonamento. Il database ospita oltr...

L'altra faccia della sostenibilità ambientale di AI

  Non è un segreto che l'AI abbia un problema di energia e, a sua volta, un problema di emissioni. Addestrare, mantenere ed eseguire enormi modelli di AI come ChatGPT, Grok o Stable Diffusion consuma la stessa quantità di energia di intere città. Ma The Guardian ha recentemente scoperto l'enorme portata delle emissioni distruttrici del pianeta che queste AI stanno producendo. La loro indagine ha rivelato che i data center interni (una parte cruciale dell'infrastruttura di AI) dei leader dell'AI Google, Microsoft, Meta e Apple producono 7,62 volte più emissioni di quelle ufficialmente dichiarate da queste aziende! Come sono riusciti a nasconderlo? Beh, lasciatemi spiegare. Come ho detto, l'AI consuma molta energia. L'AI avanzata moderna richiede terabyte su terabyte di dati organizzati per "addestrare" il modello di AI. Le aziende di AI archiviano questi dati e conducono l'addestramento dell'AI nei data center. Questi sono essenzialmente magaz...

Paura irrazionale del Nucleare

L'energia nucleare sta vivendo una rinascita in tutto il mondo: nuovi reattori sono in costruzione o in fase di pianificazione avanzata in oltre 20 paesi, tra cui quelli chiave come Cina, Giappone, India, Regno Unito, Francia, Russia, Stati Uniti... Alla conferenza sui cambiamenti climatici COP28 delle Nazioni Unite, molti di questi paesi hanno firmato per triplicare la capacità energetica nucleare globale entro il 2050. Perché le persone sostengono l'energia nucleare nella maggior parte dei paesi? Il nucleare è il miglior tipo di energia in tutti i fattori che contano: sicurezza, ambiente, sostenibilità, affidabilità, politica ed economia. Il nucleare sembra pericoloso e rischioso perché gli incidenti sembrano monumentali e il pericolo è invisibile. Risveglia una paura primordiale negli esseri umani, come gli incidenti aerei. Ma quando si misura la sicurezza effettiva, si scopre che l'energia nucleare è tra le fonti di elettricità più sicure. Il modo migliore per misu...