Risultati
14 risultati
-
italia
Metabase: strumento di data visualization
Sezione in fase di creazione ...
-
italia
Data science
Il Dataportal offre un ambiente integrato per svolgere task di data science come analisi esplorative, costruzione di grafici e dashboard e sviluppo di modelli statistici e di machine learning. Gli strumenti di data analysis e data visualization messi a disposizione dal DAF sono i seguenti: ...
-
italia
Gestione dei dataset
Per inserire un nuovo dataset all’interno della piattaforma DAF è necessario prima di tutto eseguire una procedura di metadatazione, così da definire le caratteristiche del flusso di ingestion e quelle del dataset stesso. Nel caso di un flusso batch, inoltre, i file dovranno essere caricati su un canale SFTP. Nota: la prima volta che si definisce un flusso batch è necessario effettuare un accesso preliminare all’host daf.teamdigitale.it (porta 22) utilizzando la propria chiave ssh privata e dopo aver comunicato al Team la propria chiave pubblica. Il nome utente è disponibile accedendo dal portale ai dettagli del proprio profilo. Creazione e metadatazione del dataset. Per iniziare la procedura di caricamento di un nuovo dataset è necessario cliccare nel menu Toolkit > Crea > Nuovo dataset. Il cruscotto di registrazione si compone di 3 passi. Passo 1: Carica file e descrivi le colonne. Il primo passo permette di definire il tipo di file utilizzato per la trasmissione dei dati e la modalità di caricamento. Al momento sono supportati i formati CSV e JSON (quest’ultimo in alpha test) che possono essere conferiti in modalità batch o indicando un servizio web da interrogare periodicamente (quest’ultimo in alpha test). In entrambi i casi, il processo di metadatazione è supportato da una procedura di inferenza su un file campione rappresentativo del dataset reale. Questo permette al sistema di inferire la struttura del dataset (campi e tipi dei campi) e di proporla all’utente. Per i flussi batch caricare il file campione mediante il Drag and Drop. E” necessario che il file campione rispetti alcune regole:. Il numero di record deve esser limitato (circa 50 righe). I nomi dei campi non devono avere spazi al loro interno. I nomi dei campi devono essere tutti diversi. I nomi dei campi non devono contenere caratteri speciali (e.g. “@”, “-“, “(“, “)” ) né delimitatori di stringhe. Dimensione del file sample massima: 1 MB. Deve essere rappresentativo del dataset al fine di migliorare il risultato del processo di inferenza: per quanto possibile deve contenere record coerenti con il tipo di dato che ci si aspetta sulla tabella finale. I file CSV devono contenere l’header sia nel sample che in tutti i file che vengono caricati successivamente. I file JSON devono avere i dati su una sola riga. Encoding UTF-8 (senza BOM). Dopo aver caricato il file verrà visualizzata una schermata con l’elenco dei campi inferiti e per ognuno un campione dei valori contenuti. Inizialmente è necessario indicare se il dataset è privato; in caso contrario, il dataset sarà automaticamente aggiunto tra quelli fruibili liberamente al di fuori dell’organizzazione e come open data (disponibile a breve). Successivamente, per ogni campo del dataset è possibile indicare:. tipo del campo: scegliere il tipo di dato rappresentato (int, string, timestamp…). concetto semantico: individuare nelle ontologie installate il concetto espresso dal campo; il sistema fornisce suggerimenti man mano che viene valorizzato. descrizione: inserire una descrizione per il campo. tags. obbligatorio: indicare se il campo è obbligatorio o meno. tipo della colonna. Passo 2 - Metadati:. Indicare:. il titolo. una descrizione del dataset. categoria. licenza. organizzazione di appartenenza (nel caso di dataset pubblico selezionare default_org). Passo 3 - Modalità di invio. Definire:. Dominio e sottodominio di appartenenza del dataset. al momento trascurare i seguenti campi:. se il dataset definisce uno standard. se il dataset segue uno standard. il tipo di lettura del dataset. il tipo di dataset. Al termine si viene indirizzati alla pagina di dettaglio del dataset. Si ricordi però che non è presente ancora alcun dato, quindi il download e l’anteprima non produrranno alcun risultato. Caricamento dei dataset via SFTP. Nel caso di caricamento di dataset in modalità batch mediante canale SFTP effettuare l’accesso all’host daf.teamdigitale.it (porta 22) utilizzando la propria chiave ssh privata. Se non si dispone di un coppia di chiavi ssh, è possibile utilizzare il nome utente e la propria password (il nome utente è disponibile accedendo dal portale ai dettagli del proprio profilo); questa possibilità sarà deprecata a breve. Caricare il/i file relativi al dataset definito in precedenza al path che sarà stato creato dal sistema, utilizzando un percorso relativo. La struttura segue la convenzione dominio/sottodominio/dataset/. Nel caricamento non impostare l’opzione (-p) di mantenimento della data di aggiornamento. Tutti i file che verranno man mano caricati in tale cartella incrementeranno il contenuto del dataset. Un processo in ascolto si occuperà di acquisire i file al massimo entro qualche minuto, in base alle dimensioni del file. Caricamento con interrogazione di web service. Funzionalità disponibile a breve ...
-
italia
Modalità di impiego dell’API REST
Richiamare l’endpoint in HTTP POST aggiungendo alla url il suffisso /search. Ad esempio: https://api.daf.teamdigitale.it/dataset-manager/v1/dataset/daf%3A%2F%2Fdataset%2Fdefault_org%2FGOVE__amministrazione%2Fistat_elenco_comuni_italiani/search. L’API è ottimizzata per dataset con una struttura colonnare (csv), il supporto ai json è al momento consente l’interazione solo con gli elementi di primo livello. Una query può essere composta di un insieme di clausole, scelte tra le seguenti supportate:. select. where. groupBy. having. limit. Le clausole rappresentano le proprietà complesse dell’oggetto json che deve essere inserito nel corpo della richiesta, che quindi assume la forma mostrata di seguito:. { "select": ..., "where": ..., "groupBy": ..., "having": ..., "limit": ... }. Di seguito vengono dettagliate le singole proprietà. SELECT. Permette di indicare i campi (colonne) di interesse del dataset ed eventualmente l’alias. La proprietà select accetta come valore una lista di oggetti del tipo: { "name": "col2", "alias": "alias_col2" }. Come valore di name è ammesso l’uso del carattere *. La lista può essere vuota, in tal caso si assume l’estrazione di tutte le colonne (come con l’uso del *). Esempio: selezione della colonna col1 e della colonna col2 con alias alias_col2. { "select": [ { "name": "col1" }, { "name": "col2", "alias": "alias_col2" } ] }. è equivalente a. SELECT col1, col2 AS alias_col2 FROM table. E” anche possibile rappresentare una colonna contenente un valore costante utilizzando un oggetto del tipo { "value": 1, "alias": "one_alias" }, con alias sempre opzionale. Esempio:. { "select": [ { "value": "string" }, { "value": 1, "alias": "one_alias" } ] }. è equivalente a. SELECT 'string', 1 AS one_alias FROM table. WHERE. Permette di indicare condizioni di filtro mediante l’uso di operatori logici e di confronto. La proprietà where accetta come valore un oggetto composto da uno o più operatori, a seconda della complessità del filtro, scelti tra quelli:. logici. unario di negazione not: accetta come valore un oggetto. and e or: accettano come valore una lista di oggetti. binari di confronto: accettano come valore un oggetto composto dalle proprietà left e right relativi ai due elementi di confronto. gt (maggiore strettamente di). gte (maggiore o uguale di). lt (minore strettamente di). lte (minore o uguale di). eq (uguale a). neq (non uguale a). Gli operatori logici possono essere innestati tra di loro per creare filtri complessi. E” possibile confrontare tra loro due colonne o una colonna con una costante. Esempio:. { "where": { "not": { "and": [ { "or": [ {"gt": { "left": "col1", "right": "col2" }}, {"eq": { "left": "col3", "right": false }} ] }, { "neq": { "left": "col4", "right": "'string'" } } ] } } }. è equivalente a. SELECT * FROM table WHERE NOT ( col1 > col2 OR col3 == false AND col4 <> 'string' ). Nota: effettuare l’escaping delle costanti testuali con \" o usare il delimitatore '. GROUP BY. Permette di indicare condizioni di raggruppamento per il calcolo di valori aggregati. La proprietà groupBy accetta come valore una lista non vuota di oggetti del tipo: {"name": "col2"}. Gli operatori di aggregazione attualmente supportati sono min, max, count, sum e avg. Esempio:. { "select": [ { "name": "col1" }, { "name": "col2" }, { "max": { "name": "col3"}, "alias": "max_col3" } }, { "count": { "name": "*" } } ], "groupBy": [ { "name": "col1" }, { "name": "col2" } ] }. è equivalente a. SELECT col1, col2, MAX(col3) AS max_col3, COUNT(*) FROM table GROUP BY col1, col2. HAVING. Permette di specificare clausole having se presente un raggruppamento. La proprietà having accetta come valore una lista non vuota di oggetti del tipo impiegato per esplicitare condizioni di filtro. Esempio:. { "select": [ { "name": "col1" }, { "name": "col2" }, { "max": { "name": "col3", "alias": "max_col3" } }, { "count": { "name": "*" } } ], "groupBy": [ { "name": "col1" }, { "name": "col2" } ], "having": [ { "gt": { "left": "max_col3", "right": 50 } } ] }. è equivalente a. SELECT col1, col2, MAX(col3) AS max_col3, COUNT(*) FROM table GROUP BY col1, col2 HAVING max_col3 > 50. LIMIT. Permette di specificare il numero massimo di elementi restituiti. La proprietà limit accetta un valore numerico. Esempio:. { "limit": 5 }. è equivalente a. SELECT * FROM table LIMIT 5 ...
-
italia
Dataportal: area privata
L’area privata del Dataportal è disponibile all’indirizzo dataportal-private.daf.teamdigitale.it. Gli utenti hanno la possibilità di registrarsi per avere accesso all’area privata del Dataportal e, conseguentemente, agli strumenti di analisi messi a disposizione dalla piattaforma. Fig. 3 Area privata del Dataportal. L’idea è quella di fornire alle Pubbliche Amministrazioni e alla community di utilizzatori un insieme di strumenti per l’analisi e l’accesso ai dati contenuti nel DAF, chiaramente preservando i diritti di accesso associati alle varie utenze. Dopo aver effettuato la registrazione e il login, nell’area privata è possibile [1]:. Creare e pubblicare Dashboard, ovvero un insieme di grafici creati con gli strumenti messi a disposizione dal DAF. Creare e pubblicare Storie (data stories), ovvero dei blog post in cui è possibile inserire nativamente risultati di analisi svolte con gli strumenti messi a disposizione dal DAF. Utilizzare Jupyter Notebook integrato con il cluster big data del DAF, con cui effettuare analisi esplorative iniziali fino a complessi modelli di machine learning. Accedere allo strumento di business intelligence (Superset) e strumenti più orientati alla data visualization (Metabase). I risultati delle analisi svolte con questi strumenti possono essere integrati nativamente nelle Data Story e nelle Dashboard. Le pubbliche amministrazioni registrate potranno inoltre usufruire di strumenti avanzati di gestione degli utenti. Operazioni e strumenti dell’area privata del Dataportal. Elenco non esaustivo e in evoluzione. Al momento questa funzionalità è offerta solo alle Pubbliche Amministrazioni ...
-
italia
DAF Dataportal: manuale per l’utente
Il Dataportal è il punto di accesso al Digital & Analytics Framework (DAF) e al catalogo nazionale degli open data della Pubblica Amministrazione (PA). Attraverso il Dataportal è possibile consultare il catalogo degli open data, leggere i risultati delle analisi dati («data stories») realizzate dalle Pubbliche Amministrazioni, dalla Community degli open data e dal team di data scientist del DAF, nonché contribuire all’accrescimento del sapere collettivo utilizzando gli strumenti di analisi disponibili sulla piattaforma DAF. Il Dataportal è costituito da un”area pubblica, accessibile a tutti gli utenti del Web, e un”area privata, a uso esclusivo degli utenti registrati. Questo manuale per l’utente illustra le principali operazioni che è possibile svolgere all’interno delle due piattaforme. La guida per gli sviluppatori, che descrive nel dettaglio le operazioni per l’installazione locale del DAF, è invece contenuta in un documento separato ...
-
italia
Dataportal: area pubblica
L’area pubblica del Dataportal è disponibile all’indirizzo dataportal.daf.teamdigitale.it. L’area pubblica rappresenta il punto di raccordo degli open data della PA e il punto di accesso al DAF. Essa costituisce l’evoluzione del sito dati.gov.it - i dati aperti della Pubblica Amministrazione. Fig. 2 Area pubblica del Dataportal. Per poter accedere al catalogo degli open data presenti nella piattaforma, l’utente deve prima effettuare la registrazione al Dataportal, seguendo le stesse indicazioni per l’accesso all’area privata. Oltre al catalogo degli open data, l’utente avrà accesso alle data stories condivise dagli utilizzatori del DAF, potrà ricercare e utilizzare le Data Application presenti sulla piattaforma, informarsi sulle novità provenienti dal mondo dei dati pubblici, e tanto altro. In questa area sarà inoltre disponibile una sezione dedicata agli analisti e agli sviluppatori di Data Application contenente documentazione tecnica e schede informative sulle funzionalità del DAF. LINK ALLE SEZIONI. Data stories. Novità e documentazione ...
-
italia
Jupyter Notebook: strumento per data science
http://spark.apache.org/docs/latest/sql-programming-guide.html. http://jupyter.org/. Note. [1]. Per una panoramica completa sulle funzionalità offerte da Jupyter e per l’elenco completo dei linguaggi di programmazione da esso supportati, far riferimento al sito ufficiale. [2]. Al momento l’autenticazione presso il server è necessaria ogni volta che si crea un nuovo notebook. Nelle prossime release del DAF, sarà fornito uno script che permetterà di effettuare questa operazione solo una volta ...
-
italia
Superset: strumento per data visualization
Superset è un tool molto potente e, conseguentemente, complesso. Per utilizzare in pieno le sue funzionalità si rimanda a guide specifiche sul tema, di cui si riportano alcuni riferimenti non esaustivi. https://superset.incubator.apache.org/. http://de.straba.us/2017/08/15/creare-dashboard-con-superset/. [1]. Il DAF propone alcune tabelle pre-caricate a beneficio degli utenti che vogliono familiarizzare con Superset ...
-
italia
Registrazione e accesso all’area privata
La funzionalità, disponibile dalla pagina di autenticazione, permette sia di ripristinare l’accesso alla sezione privata del portale nel caso non si ricordi la password, sia di modificare la propria password. A tal fine fornire la mail utilizzata in fase di registrazione, alla quale, se corretta, verrà inoltrato un link. Utilizzare il form per indicare la nuova password ...
-
italia
Amministrazione di utenti e organizzazioni
Aggiunta e rimozione di organizzazioni ...
-
italia
Data & Analytics Framework (DAF)
L’intera piattaforma del DAF può essere riassunta con lo schema nella Figura 1, e viene descritta in dettaglio nella guida per gli sviluppatori (in inglese). Fig. 1 Architettura del DAF. Il Dataportal costituisce il principale punto di accesso al DAF e alle sue funzionalità. L’utente finale può avere accesso ai cataloghi di dati ed eseguire analisi su di essi tramite una web app, senza dover installare alcun componente nel proprio computer. Tuttavia, se l’utente lo desidera, può installare l’intera piattaforma localmente seguendo le istruzioni all’installazione contenute nella guida per gli sviluppatori (in inglese) ...