Passa ai contenuti principali

Vocabolario dell'ingegneria dei dati

 

Ecco alcuni concetti e i termini chiave utilizzati nell'ingegneria dei dati, raccolti in una pagina per un facile riferimento.

Concetti fondamentali

Big Data: set di dati troppo grandi o complessi per il software di elaborazione dati tradizionale.

Data Pipeline: serie di passaggi di elaborazione dati dall'inserimento all'analisi.

ETL (Extract, Transform, Load): processo di estrazione dei dati dalle fonti, trasformazione e caricamento in una destinazione.

ELT (Extract, Load, Transform): variazione in cui i dati vengono caricati prima della trasformazione.

Data Lake: repository centralizzato per l'archiviazione di dati strutturati e non strutturati su larga scala.

Data Warehouse: sistema per l'archiviazione di dati strutturati e filtrati per analisi e reporting.

Data Mart: sottoinsieme di un data warehouse focalizzato su una specifica linea di business o team.

OLTP (Online Transaction Processing): sistemi che gestiscono applicazioni orientate alle transazioni.

OLAP (Online Analytical Processing): sistemi ottimizzati per query e analisi complesse.

CDC (Change Data Capture): CDC consente il monitoraggio delle operazioni di inserimento, aggiornamento ed eliminazione eseguite sui dati. 

SCD (Slowly Changing Dimensions): gli SCD vengono utilizzati per tracciare i cambiamenti storici negli attributi delle dimensioni. Esistono diversi tipi di SCD (Tipo 1, Tipo 2, Tipo 3, ecc.)


Data Modeling e architettura dei dati

Data Modeling: processo di creazione di un modello di dati per l'archiviazione in un database.

Fact Table: tabella centrale in un data warehouse che archivia dati quantitativi per l'analisi, in genere contenente metriche e chiavi esterne che si collegano alle tabelle delle dimensioni.

Dimension Table: fornisce attributi descrittivi correlati ai fatti nella tabella dei fatti, offrendo informazioni di contesto e di base per l'analisi e la creazione di report.

Schema: descrizione formale della struttura di un database.

Star Schema: schema del data warehouse con una tabella dei fatti centrale collegata alle tabelle delle dimensioni.

Snowflake Schema: variazione dello schema a stella con tabelle delle dimensioni normalizzate.

Data Architecture: progetto che definisce la struttura delle risorse di dati di un'organizzazione.

Master Data Management (MDM): metodo per definire e gestire dati critici.


Tecnologie di database

SQL (Structured Query Language): linguaggio standard per la gestione di database relazionali. 

NoSQL: database che archiviano e recuperano dati utilizzando modelli diversi dalle relazioni tabulari.

ACID: proprietà che garantiscono transazioni di database affidabili (atomicità, coerenza, isolamento, durata).

Possiamo includere DDL, DML ecc.

 

 

Elaborazione e analisi dei dati

Elaborazione batch: elaborazione di grandi quantità di dati contemporaneamente.

Elaborazione in streaming: elaborazione dei dati in piccoli blocchi man mano che arrivano.

Elaborazione in tempo reale: analisi e distribuzione simultanea dei risultati.

Architettura Lambda: architettura di elaborazione dei dati progettata per gestire grandi quantità di dati.

Architettura Kappa: architettura semplificata che tratta tutti i dati come un flusso.

MapReduce: modello di programmazione per l'elaborazione di grandi set di dati in parallelo.

Data Mining: processo di scoperta di modelli in grandi set di dati.

Machine Learning: utilizzo di algoritmi per migliorare le prestazioni di un'attività tramite l'esperienza.


Cloud e sistemi distribuiti

Cloud Computing: fornitura su richiesta di potenza di elaborazione, archiviazione di database, applicazioni e altre risorse IT.

Distributed Systems: sistemi i cui componenti sono posizionati su diversi computer in rete. Microservces: tecnica di sviluppo software in cui un'applicazione è strutturata come una raccolta di servizi debolmente accoppiati.

Serverless Computing: modello di esecuzione del cloud computing in cui il provider cloud gestisce l'infrastruttura del server.


Data Quality and Governance

Data Quality: misura delle condizioni dei dati, tra cui accuratezza, completezza, coerenza e affidabilità.

Data Governance: sistema di diritti decisionali e responsabilità per i processi correlati alle informazioni.

Data Lineage: ciclo di vita dei dati che include le loro origini e dove si spostano nel tempo.

Data Catalog: inventario di tutte le risorse di dati in un'organizzazione.


Performance e optimization

Indexing: tecnica per migliorare le prestazioni del database consentendo un recupero più rapido dei record.

Partitioning: divisione di tabelle di grandi dimensioni in parti più piccole e gestibili.

Sharding: partizionamento orizzontale dei dati in un database o motore di ricerca.

Caching: archiviazione dei dati a cui si accede di frequente nella memoria per un rapido recupero.

 

Varie

API (Application Programming Interface): set di protocolli per la creazione e l'integrazione di software applicativo. REST (Representational State Transfer): stile architettonico per sistemi ipermediali distribuiti.

GraphQL: linguaggio di query per API e runtime per l'esecuzione di tali query.

Blockchain: tecnologia di registro distribuito che mantiene un elenco di record in continua crescita.

IoT (Internet of Things): rete di dispositivi fisici incorporati con elettronica, software, sensori e connettività di rete.

 

Questo vocabolario copre un'ampia gamma di concetti e tecnologie rilevanti per l'ingegneria dei dati. La familiarità con questi termini fornirà una solida base per comprendere e discutere i concetti e le pratiche dell'ingegneria dei dati.

 

Commenti

Post popolari in questo blog

Lo sguardo nel tempo della filosofia

Questo non è un manuale, né una cronologia della filosofia.   È un invito. Un invito a pensare senza rete, a incontrare gli autori nel disordine vivo delle idee senza la mappa sicura della storia a guidare il cammino. I saggi che seguono non sono disposti in ordine cronologico: volutamente.  Non si parte dall’antichità per arrivare ai giorni nostri.   Qui si entra in un dialogo che salta nel tempo, che lega in modo inatteso voci lontane, che accosta domande di oggi a risposte di ieri e viceversa. Questo perché la filosofia quando è autentica, non invecchia e non si lascia classificare. Non è una sequenza, ma un’intuizione che torna, un’urgenza che si ripete, una scintilla che si riaccende anche dopo secoli; è lo sguardo che si muove liberamente attraverso il tempo senza esserne prigioniero. Qui la filosofia è un incontro e un urto; è ascolto e spiazzamento. È un tempo che non si misura, ma si abita. Ogni autore trattato è un ritaglio di questo sguardo nel tempo: uno sguar...

Michel Foucault, il filosofo più cercato sulla rete

Secondo una recente analisi, Michel Foucault ha 1,42 milioni di citazioni su Google Scholar, circa il 75% in più di qualsiasi altro autore nella storia. Questo significa che, a oggi, solo la Bibbia ha avuto un impatto maggiore di Foucault nel plasmare la società e la cultura occidentale. Oppure, se consideriamo la cosa a livello individuale, si può a ragione affermare che Michel Foucault sia la persona più influente nella storia della civiltà moderna. Ma perché? Beh, diciamo solo che non è dovuto al fatto che fosse di facile lettura. Le sue idee possono spesso essere eccessivamente astratte e un po' dense. E soprattutto, non è stato lo scrittore più prolifico. Ad esempio, Noam Chomsky, che è praticamente una divinità nel campo della linguistica, ha scritto o contribuito a oltre 1.100 opere pubblicate, mentre i contributi di Foucault ammontano a poco più di 400. E a conti fatti, questo è praticamente meno della metà del totale di Chompsky. Ma l'ironia è che il numero di ...

L'algoritmo per verificare l'età dei naviganti Internet

  Google inizierà a utilizzare algoritmi di apprendimento automatico addestrati con informazioni ottenute dall'azienda stessa per la verifica dell'età per fornire quelle che definisce "esperienze appropriate all'età". Il modello di stima dell'età utilizzerà dati sugli utenti esistenti, tra cui le pagine che visitano, il tipo di video che guardano su YouTube o l'età del loro account, per determinare la loro età.  Quando pensa che un utente possa essere minorenne, l'azienda lo informerà che ha modificato alcune delle sue impostazioni per impedirgli di accedere a determinati tipi di contenuti e offrirà consigli su come può verificare la sua età se lo desidera, scattando un selfie, inserendo i dettagli della carta di credito o utilizzando un documento d'identità ufficiale. L'iniziativa è una risposta alle pressioni degli enti di regolamentazione che chiedono misure per proteggere i minori, nello stesso modo in cui ha fatto Meta. Ma sebbene possa se...