Passa ai contenuti principali

Vocabolario dell'ingegneria dei dati

 

Ecco alcuni concetti e i termini chiave utilizzati nell'ingegneria dei dati, raccolti in una pagina per un facile riferimento.

Concetti fondamentali

Big Data: set di dati troppo grandi o complessi per il software di elaborazione dati tradizionale.

Data Pipeline: serie di passaggi di elaborazione dati dall'inserimento all'analisi.

ETL (Extract, Transform, Load): processo di estrazione dei dati dalle fonti, trasformazione e caricamento in una destinazione.

ELT (Extract, Load, Transform): variazione in cui i dati vengono caricati prima della trasformazione.

Data Lake: repository centralizzato per l'archiviazione di dati strutturati e non strutturati su larga scala.

Data Warehouse: sistema per l'archiviazione di dati strutturati e filtrati per analisi e reporting.

Data Mart: sottoinsieme di un data warehouse focalizzato su una specifica linea di business o team.

OLTP (Online Transaction Processing): sistemi che gestiscono applicazioni orientate alle transazioni.

OLAP (Online Analytical Processing): sistemi ottimizzati per query e analisi complesse.

CDC (Change Data Capture): CDC consente il monitoraggio delle operazioni di inserimento, aggiornamento ed eliminazione eseguite sui dati. 

SCD (Slowly Changing Dimensions): gli SCD vengono utilizzati per tracciare i cambiamenti storici negli attributi delle dimensioni. Esistono diversi tipi di SCD (Tipo 1, Tipo 2, Tipo 3, ecc.)


Data Modeling e architettura dei dati

Data Modeling: processo di creazione di un modello di dati per l'archiviazione in un database.

Fact Table: tabella centrale in un data warehouse che archivia dati quantitativi per l'analisi, in genere contenente metriche e chiavi esterne che si collegano alle tabelle delle dimensioni.

Dimension Table: fornisce attributi descrittivi correlati ai fatti nella tabella dei fatti, offrendo informazioni di contesto e di base per l'analisi e la creazione di report.

Schema: descrizione formale della struttura di un database.

Star Schema: schema del data warehouse con una tabella dei fatti centrale collegata alle tabelle delle dimensioni.

Snowflake Schema: variazione dello schema a stella con tabelle delle dimensioni normalizzate.

Data Architecture: progetto che definisce la struttura delle risorse di dati di un'organizzazione.

Master Data Management (MDM): metodo per definire e gestire dati critici.


Tecnologie di database

SQL (Structured Query Language): linguaggio standard per la gestione di database relazionali. 

NoSQL: database che archiviano e recuperano dati utilizzando modelli diversi dalle relazioni tabulari.

ACID: proprietà che garantiscono transazioni di database affidabili (atomicità, coerenza, isolamento, durata).

Possiamo includere DDL, DML ecc.

 

 

Elaborazione e analisi dei dati

Elaborazione batch: elaborazione di grandi quantità di dati contemporaneamente.

Elaborazione in streaming: elaborazione dei dati in piccoli blocchi man mano che arrivano.

Elaborazione in tempo reale: analisi e distribuzione simultanea dei risultati.

Architettura Lambda: architettura di elaborazione dei dati progettata per gestire grandi quantità di dati.

Architettura Kappa: architettura semplificata che tratta tutti i dati come un flusso.

MapReduce: modello di programmazione per l'elaborazione di grandi set di dati in parallelo.

Data Mining: processo di scoperta di modelli in grandi set di dati.

Machine Learning: utilizzo di algoritmi per migliorare le prestazioni di un'attività tramite l'esperienza.


Cloud e sistemi distribuiti

Cloud Computing: fornitura su richiesta di potenza di elaborazione, archiviazione di database, applicazioni e altre risorse IT.

Distributed Systems: sistemi i cui componenti sono posizionati su diversi computer in rete. Microservces: tecnica di sviluppo software in cui un'applicazione è strutturata come una raccolta di servizi debolmente accoppiati.

Serverless Computing: modello di esecuzione del cloud computing in cui il provider cloud gestisce l'infrastruttura del server.


Data Quality and Governance

Data Quality: misura delle condizioni dei dati, tra cui accuratezza, completezza, coerenza e affidabilità.

Data Governance: sistema di diritti decisionali e responsabilità per i processi correlati alle informazioni.

Data Lineage: ciclo di vita dei dati che include le loro origini e dove si spostano nel tempo.

Data Catalog: inventario di tutte le risorse di dati in un'organizzazione.


Performance e optimization

Indexing: tecnica per migliorare le prestazioni del database consentendo un recupero più rapido dei record.

Partitioning: divisione di tabelle di grandi dimensioni in parti più piccole e gestibili.

Sharding: partizionamento orizzontale dei dati in un database o motore di ricerca.

Caching: archiviazione dei dati a cui si accede di frequente nella memoria per un rapido recupero.

 

Varie

API (Application Programming Interface): set di protocolli per la creazione e l'integrazione di software applicativo. REST (Representational State Transfer): stile architettonico per sistemi ipermediali distribuiti.

GraphQL: linguaggio di query per API e runtime per l'esecuzione di tali query.

Blockchain: tecnologia di registro distribuito che mantiene un elenco di record in continua crescita.

IoT (Internet of Things): rete di dispositivi fisici incorporati con elettronica, software, sensori e connettività di rete.

 

Questo vocabolario copre un'ampia gamma di concetti e tecnologie rilevanti per l'ingegneria dei dati. La familiarità con questi termini fornirà una solida base per comprendere e discutere i concetti e le pratiche dell'ingegneria dei dati.

 

Commenti

Post popolari in questo blog

Nuovi stili di arte?

Opera di Silvia Senna L’arte, davvero, è una delle poche cose che restano agli esseri umani. Abbiamo bisogno che l'arte ci racconti storie, che ci salvi dal nostro destino condiviso, dalla nostra paura della morte e dalla paura gli uni degli altri. Abbiamo bisogno che gli artisti ci mostrino che non siamo sempre soli.  Non si può piangere sulle spalle di un robot, ma ci si può alzare dal letto, finalmente, grazie a una canzone, una poesia, una scultura, un quadro. Ciò l'arte porta dal regno dello spirito a quello dei corpi nella scia delle emozioni è semplicemente l'impossibile per un robot. Abbiamo bisogno che i nostri film, i nostri dipinti, le nostre poesie e la nostra musica siano realizzati dall’uomo, perché siamo umani. Ma come in ogni conversazione che coinvolga arte o tecnologia, spesso possiamo perderci nella verbosità. Nel 21° secolo stiamo certamente vedendo le conseguenze delle connessioni interrotte. I social media, una forma un tempo innocente di condivider...

Lo sguardo nel tempo della filosofia

Questo non è un manuale, né una cronologia della filosofia.   È un invito. Un invito a pensare senza rete, a incontrare gli autori nel disordine vivo delle idee senza la mappa sicura della storia a guidare il cammino. I saggi che seguono non sono disposti in ordine cronologico: volutamente.  Non si parte dall’antichità per arrivare ai giorni nostri.   Qui si entra in un dialogo che salta nel tempo, che lega in modo inatteso voci lontane, che accosta domande di oggi a risposte di ieri e viceversa. Questo perché la filosofia quando è autentica, non invecchia e non si lascia classificare. Non è una sequenza, ma un’intuizione che torna, un’urgenza che si ripete, una scintilla che si riaccende anche dopo secoli; è lo sguardo che si muove liberamente attraverso il tempo senza esserne prigioniero. Qui la filosofia è un incontro e un urto; è ascolto e spiazzamento. È un tempo che non si misura, ma si abita. Ogni autore trattato è un ritaglio di questo sguardo nel tempo: uno sguar...

I tentacoli di AI sulla pornografia

  L'intelligenza artificiale è in ascesa da anni. Solo negli ultimi mesi, alcuni degli sviluppi in quest'area della tecnologia sono diventati difficili da ignorare. Con l'avvento dei servizi di creazione di immagini AI come Dall-E 2, Midjourney e Lensa, questo nuovo campo in rapida crescita è diventato qualcosa di completamente nuovo. Poco dopo il rilascio di questi strumenti di creazione di immagini, è entrato in scena anche ChatGPT. Man mano che sempre più persone hanno iniziato a saperne di più, tutti, dagli scrittori e insegnanti agli studenti e storici, hanno iniziato a fare ipotesi sui modi in cui questi servizi avrebbero potuto cambiare tutto in futuro. Con la rapidità con cui si muovono le cose nel mondo della tecnologia, è difficile immaginare che questi programmi non miglioreranno nel tempo. E quando lo faranno, è difficile negare la minaccia che rappresenteranno per i creatori di ogni tipo. Poiché la pornografia su Internet ha pervaso sempre più la nostra c...