Repositorio Dspace

Un sistema de recomendación de gráficas estadísticas basado en las características de los datos

Registro sencillo

dc.contributor Universitat de Vic - Universitat Central de Catalunya. Departament d'Economia i Empresa ca
dc.contributor.author Millán Martínez, Pere
dc.date.accessioned 2023-04-28T10:20:11Z
dc.date.available 2023-04-28T10:20:11Z
dc.date.created 2023-02-24
dc.date.issued 2023-02-24
dc.identifier.uri http://hdl.handle.net/10854/7417
dc.description Programa de Doctorat: Cures Integrals i Serveis de Salut ca
dc.description.abstract Estem immersos en una explosió de dades que fa necessari ampliar i millorar els mètodes que permeten extreure’n informació. Un dels primers processos per convertir les dades en informació es coneix com a EDA (o anàlisi exploratòria de dades) que consisteix a observar les característiques d’un conjunt de dades, sense posar l’accent en el modelatge de les dades o el contrast d’hipòtesis preconcebudes. Si aquesta exploració se serveix de gràfiques que representen les dades, aleshores es coneix com a GEDA (o anàlisi gràfica exploratòria de dades). Observar les dades mitjançant gràfiques, sense hipòtesis preconcebudes, i que aquestes gràfiques ens facin descobrir aspectes de les dades que facin emergir noves hipòtesis, ens condueix a allò que es coneix com el problema gràfic: d’entre el ventall de gràfiques possibles... quina triar? Aquí entren en servei els recomanadors de gràfiques estadístiques i els sistemes autoGEDA (o sistemes automatitzats d’anàlisi gràfica exploratòria de dades). La recomanació de gràfiques estadístiques es pot fer seguint diferents estratègies. D’una banda, a partir de les característiques de les dades, com ara el nombre de variables a relacionar, les característiques de les variables per separat, les característiques de les relacions entre aquestes, la manera com s’estructuren les dades i la seva procedència o utilitat per a la qual s’han recollit. D’altra banda, tenim les característiques dels usuaris receptors, és a dir, les característiques de la percepció humana, la tasca a realitzar per l’usuari, el record de seleccions prèvies i les convencions socials. També es poden recomanar gràfiques en funció de les característiques del canal de comunicació, per exemple, a causa de limitacions en la transmissió de dades, de processament o de la mida de la pantalla on es projecta la gràfica. Finalment, també es poden recomanar gràfiques a partir de les característiques, més o menys concretes, del tipus de gràfica desitjada. Entre les estratègies que es poden seguir per recomanar gràfiques estadístiques, tenen especial rellevància el nombre de variables a relacionar i les característiques de les variables per separat. Entre les característiques que es poden descriure de cadascuna de les variables i que tenen incidència en la selecció d’una gràfica estadística o una altra, trobem aspectes com, per exemple, l’escala de mesura de les variables, la consideració d’aquestes com a predictores o de resposta, el nombre d’observacions o el recompte de valors diferents observats. Donada una selecció limitada de variables d’un conjunt de dades, com més detallada és la caracterització d’aquestes variables, menor és el nombre de gràfiques estadístiques que poden ser interessants per a l’usuari. A partir d’aquesta premissa, aquest treball proposa una caracterització multidimensional de les variables per separat que és útil per escollir quines gràfiques mostrar a un usuari a partir de les característiques de les variables seleccionades per aquest. La caracterització proposada considera l’escala de mesura gràfica, el mètode d’agregació de les dades, la ciclicitat de l’espai mostral, la conveniència de mostrar explícitament l’escala de la variable i la longitud d’aquesta. A partir de la caracterització proposada de les variables per separat i de les gràfiques estadístiques a què cada combinació de variables es pot associar, s’estableix un marc amb què es poden classificar les gràfiques estadístiques. La caracterització de les variables proposada, malgrat les possibles millores a què es pugui sotmetre, pot ser la llavor d’una gramàtica de les gràfiques que, en comptes d’estar basada en models de representació, estaria basada en les propietats de les variables. Això es traduiria, per exemple, en definir una variable com a ambigua per eliminar un determinat eix de coordenades o una determinada llegenda, definir una variable com a cíclica per convertir un eix de coordenades ortogonal en un circular, o definir una variable com de tipus tamisat per convertir, per exemple, un diagrama uniaxial de punt en un histograma o un diagrama de dispersió en un mapa de calor. No cal perdre de vista, però, que els conjunts de dades es troben emmagatzemats, generalment, en sistemes informàtics que ja tenen caracteritzades les variables amb un altre criteri que, en comptes de perseguir la millor visualització, persegueix minimitzar l’espai d’emmagatzematge. Donada aquesta caracterització preestablerta, esperar que un usuari torni a caracteritzar les variables novament abans d’obtenir una gràfica és, possiblement, un plantejament naïf. Haver de tornar a caracteritzar les variables aixeca una barrera entre les dades i l’usuari, més si tenim en compte que els usuaris no estan necessàriament familiaritzats amb les dades. Superar la barrera que suposa haver de caracteritzar les dades té tres possibles solucions. La primera solució passa per aprofitar la caracterització preestablerta de les dades per, en base a aquesta, suggerir les gràfiques estadístiques. La segona solució passa per fer suposicions en relació a les dades, de manera que la caracterització de les variables sigui transparent per a l’usuari i que, en cas de ser errònia, aquest pugui modificar-la. La tercera solució passa per emmagatzemar les dades primant la possible explotació gràfica en comptes de primar l’espai necessari en un disc dur o qualsevol altre suport. A l’hora de proposar un sistema de recomanació de gràfiques estadístiques, en base a les característiques de les dades, entre les possibles solucions per evitar que l’usuari hagi de tornar a caracteritzar les variables, hem escollit la primera. En el nostre cas, hem aprofitat la caracterització preestablerta en l’àmbit específic de l’entorn de programació estadística R. El fruit d’aquesta implementació és el paquet brinton per a R que inclou les funcions wideplot(), longplot(), matrixplot() i plotup() que presenten de manera automàtica gràfiques estadístiques, assisteixen a l’usuari en l’exploració dels conjunts de dades mitjançant gràfiques univariades i bivariades, alhora que faciliten l’elecció, edició i representació d’una gràfica determinada per part de l’usuari. Cada funció del paquet brinton afegeix una alternativa nova dins l’àmbit de l’exploració gràfica automatitzada de dades i el conjunt de les funcions, facilita i accelera el procés de generació d’informació a partir d’un conjunt de dades. En un futur proper, la utilitat del paquet brinton serà reforçada mitjançant la incorporació de noves espècies als espècimens de gràfiques univariades i bivariades així com la incorporació d’un nou espècimen de gràfiques trivariades i noves funcions que complementin les existents. Donat el ventall de gràfiques que el paquet brinton proporciona i la facilitat amb què els usuaris poden triar entre una gràfica o una altra, una futura línia de recerca és conèixer la relació entre les gràfiques escollides i la utilitat que aquestes representen per als usuaris. Aquesta relació permetria afegir precisió a la recomanació de gràfiques estadístiques atès que, el ventall de gràfiques a mostrar, es podria reduir a aquelles que són compatibles amb les dades seleccionades i que millor expectativa tenen de satisfer la utilitat que l’usuari n’espera. es
dc.format application/pdf es
dc.format.extent 276 p. es
dc.language.iso spa es
dc.publisher Universitat de Vic - Universitat Central de Catalunya es
dc.rights Aquest document està subjecte a aquesta llicència Creative Commons es
dc.rights.uri https://creativecommons.org/licenses/by-nc-sa/4.0/deed.ca es
dc.subject.other Estadística -- Quadres, gràfics, etc. es
dc.subject.other Conjunts de dades es
dc.subject.other Sistemes informàtics es
dc.title Un sistema de recomendación de gráficas estadísticas basado en las características de los datos es
dc.type info:eu-repo/semantics/doctoralThesis es
dc.embargo.terms 12 mesos es
dc.rights.accessRights info:eu-repo/semantics/openAccess es
dc.contributor.director Oller, Ramon

Texto completo de este documento

Registro sencillo

Aquest document està subjecte a aquesta llicència Creative Commons Aquest document està subjecte a aquesta llicència Creative Commons

Buscar en RIUVic


Listar

Estadísticas