Home | Kaip pradėti | Ataskaitos ir dokumentai | Analizė | Draudėjai | F1VP | Business Intelligence | Kokybė | Apie TDS

Apie duomenų ir informacijos kokybę

 

Apžvalgos turinys

Duomenų ir informacijos kokybė, kaip jų tinkamumas planuotam naudojimui. Kokybiškų duomenų ir informacijos poreikis BI technologijose. Kiek kainuoja kokybė. Duomenų ir informacijos struktūra, jų kokybės argumentai, žinių samprata. Informacinė TDS struktūra kokybės kontekste. Duomenų ir  informacijos kokybės dimensijos. Kokybės kontrolės sistemos. Duomenų ir informacijos kokybės perspektyvos. Informacijos šaltiniai Internete.

 Kaip suprantama duomenų ir informacijos kokybė   |   BI technologijų ir duomenų bei informacijos kokybės ryšys   |   Kiek kainuoja kokybė   |   Duomenų ir informacijos struktūra. Jų kokybės argumentai   |   Informacinė TDS struktūra kokybės kontekste   |   Duomenų ir informacijos kokybės dimensijos   |   1. Teisingumas   |   2. Pilnumas   |   3. Integralumas   |    4. Pagrįstumas   |    5. Suprantamumas   |    6. Prieinamumas   |    7. Savalaikiškumas   |    8. Reikalingumas   |   Apie Kokybės kontrolės sistemas   |    Duomenų ir informacijos kokybės perspektyvos   |   Informacijos šaltiniai apie duomenų ir informacijos kokybę 

Kaip suprantama duomenų ir informacijos kokybė

Įsivaizduokite, kad jūs įsigijote daiktą, arba jums suteikė paslaugą, ir jūs negalite jais naudotis. Naudotis taip, kaip planavote. Tada jūs sakote, kad įsigytas daiktas, arba suteikta paslauga, jums yra nekokybiški. Duomenys ir informacija nėra išimtis. Jie yra nekokybiški, jeigu jų gavėjas negali jais naudotis taip, kaip planavo.

Šiandien informacinėse technologijose duomenų ir informacijos kokybė yra suprantama, kaip jų tinkamumas panaudojimui. Ir tokiam panaudojimui, kokį planavo duomenų ir informacijos gavėjai. Duomenys ir informacija yra kokybiški, jeigu jie tenkina pagrįstus jų naudotojų lūkesčius.

Tai, kad daiktas ar paslauga yra kokybiški, visai nereiškia, kad jie yra patys geriausi iš galimų, arba kad tenkina kokius tai ypatingus visuotinai priimtus reikalavimus. Viskas priklauso nuo konkretaus naudotojo poreikių. Vienam naudotojui tas pats daiktas ar paslauga gali būti kokybiški, kitam – ne. Kokybiški duomenys ir informacija taip pat nereiškia, kad jie yra visai be klaidų. Būtina sąlyga yra tiktai tai, kad klaidos ir kiti duomenų bei informacijos trūkumai netrukdo naudotojams naudotis duomenimis ir informacija taip, kaip jie planavo.

Tarkime, pavyzdžiui, kad konkretus mokesčių mokėtojas savo mėnesinės PVM deklaracijos langelyje "11. PVM apmokestinami tiekimai (18, 9 ir 5 proc.)" vietoje 48154 Lt sumos per klaidą įrašė 4815464279 Lt sumą (tai palyginti dažna klaida deklaruojant duomenis elektroniniu būdu – praėjusį mėnesį mokesčių mokėtojas deklaravo 64279 Lt sumą, o šio mėnesio deklaraciją rengė ištaisydamas senos deklaracijos sumas ir 11 langelyje buvusi suma kažkodėl tai liko). Operacijų registravimo duomenų bazėje atskirai nuo kitų tokią deklaraciją nagrinėjantys auditoriai supras, kad tai klaida, ir nieko blogo neįvyks. Tačiau Duomenų saugykloje, nagrinėjant suminius duomenis tarkime pagal įmonių pagrindines ekonomines veiklas ar registravimo teritorijas, kur konkrečios deklaracijos neišskiriamos ir nematomos, gausime ženkliai neteisingus duomenis, nematysime klaidos ir todėl galime priimti neteisingus sprendimus. Pirmuoju atveju tokie duomenys tenkina pagrįstus kokybės reikalavimus, o antruoju – jau ne.

Reikalavimas, kad kokybiški duomenys ir informacija turi tenkinti ne bet kokius, o tiktai pagrįstus naudotojų lūkesčius yra svarbus. Jis apsaugo nuo situacijų, kada duomenys ar informacija gali būti paskelbti nekokybiškais dėl kokio tai vieno naudotojo nepagrįstų kaprizų. Naudotojo poreikiai turi būti minimalūs, bet leidžiantys panaudoti gaunamus duomenis ir informaciją taip, kaip jis planuoja.

Pastebėsime, kad žiūrint labai jau preciziškai kokybiškų duomenų ir informacijos apibrėžime reikalavimas, kad duomenis ir informaciją galima būtų panaudoti betarpiškai ir efektyviai, yra nereikalingas. Pakanka reikalauti, kad juos būtų galima panaudoti taip, kaip planuoja naudotojas. Gal būt jis nori juos naudoti ne betarpiškai. Sunkiau įsivaizduoti naudotoją, kuris planuotų duomenis ir informaciją naudoti neefektyviai. Bet palikime tai nuspręsti pačiam naudotojui.

Skyrelį apibendrinsime tokiu išsireiškimu "Kokybė gyvena naudotojo akyse...". Tačiau nagrinėti reikia ne vieną konkretų naudotoją, o visus, kuriems konkretūs duomenys ir informacija yra teikiami. Akivaizdu, kad norint įvertinti konkrečių duomenų ir informacijos kokybę būtina tiksliai identifikuoti visus jų naudotojus.

  

BI technologijų ir duomenų bei informacijos kokybės ryšys

Pirmiausia prisiminkime, kodėl atsirado Business Intelligence informacinės technologijos (aktualios informacijos rengimas ir teikimas, sutrumpintai – BI technologijos). Todėl, kad duomenimis ir informacija buvo sunku naudotis. Turint galvoje pereitame skyrelyje aptartą kokybiškų duomenų ir informacijos sąvoką – todėl, kad duomenys ir informacija buvo nekokybiški.

BI technologijos atsirado ne vien tiktai todėl, kad reikalingai informaciją pasiimti iš operacijų registravimo duomenų bazių, Microsoft Excel ir kitų bylų reikėdavo daug laiko ir pastangų. Jos atsirado pirmiausiai todėl, kad įvairiose bazėse ir bylose kaupiami bei tvarkomi tuos pačius reiškinius aprašantys duomenys dažniausiai nesutapdavo ir būdavo sunkiai palyginami, neapibrėžti arba neteisingai apibrėžti ir interpretuojami, nepilni ir pagal laiką bei kitas dimensijas neintegruojami. Toks gerai neapgalvotas ir neoptimizuotas netvarkingų bei vienas kitą dubliuojančių duomenų ir informacijos kaupimo procesas dažnai vadinamas duomenų, informacijos ir žinių siloso gamyba.

Ar konkrečiai įmonei įsidiegus BI technologijas automatiškai pasidaro lengviau naudotis duomenimis ir informacija? Ar pasiteisina diegiami BI projektai? Atsakymas į abu šiuos klausimus būtų toks – dažniausiai ne. Įvairioje duomenų ir informacijos kokybę nagrinėjančioje literatūroje rašoma, kad pasiteisina ne daugiau, kaip 10% BI projektų. Ir tie patys tiktai iš dalies. Kodėl?

Dažniausiai dėl nepavykusių BI projektų kalta būna prasta teikiamų į DS duomenų ir jos naudotojams teikiamos informacijos kokybė. Kaip taisyklė, diegiant BI technologijas visas dėmesys yra skiriamas naujos infrastruktūros ir programinės įrangos įsigijimui bei įdiegimui. O į DS keliami visi arba beveik visi duomenys, kurie iki tol buvo tvarkomi operacijų registravimui skirtose duomenų bazėse. Ir praktiškai nepertvarkyti pateikiami galutiniams DS naudotojams, kaip jiems skirta informacija.

Šitaip elgiantis BI sistema tampa tiktai dar viena komponente duomenų, informacijos ir žinių siloso gamybos procese. Gaunasi netgi blogiau, nei prieš įdiegiant BI sistemą. Nes diegti ir plėtoti greitas ir plačiai naudojamas informacines technologijas nepašalinus nekokybiškų duomenų atsiradimo priežasčių reiškia baisiu greičiu tiražuoti nekokybiškus duomenis.  Ir tokiu pat laipsniu gilinti kylančias iš jų naudojimo arba kaupimo ir nenaudojimo problemas. Čia situaciją galima būtų palyginti su vėžio liga. Su viena išsigimusia ląstele organizmas gali gyventi, tačiau jeigu tokios ląstelės pradeda baisiu greičiu daugintis, tai jau darosi blogai.

Reikia taip pat prisiminti, kad duomenų agregavimas didina reikalavimus jų kokybei. Jeigu neteisingi arba nepilni yra tiktai vieno konkretaus mokesčio mokėtojo duomenys, tai mes vis tiek galime naudotis kitų mokesčių mokėtojų duomenimis. Tačiau nebegalime naudotis suminiais arba kitaip agreguotais visų mokesčių mokėtojų duomenimis, nes jie jau bus klaidingi. Agreguotus duomenis gali žymiai iškreipti netgi vieno atskiro mokesčių mokėtojo klaidingi duomenys.

Galima drąsiai tvirtinti, kad jeigu BI sistema bus diegiama vien tik sukeliant duomenis iš operacijų registravimui skirtų duomenų bazių į DS ir duomenys bei informacija bus valdomi senais iki tol naudotais metodais, tai garantuotai bus sukurtas nekokybiškas produktas. Ir jis nepateisins į jį dėtų lūkesčių.

Apibendrinsime skyrelį taip. BI technologijos apima aktualios informacijos rengimo ir teikimo procesą nuo pradinių duomenų nagrinėjimo ir surinkimo iki informacijos teikimo sprendimus priimantiems darbuotojams su tikslu, kad ji virstų reikalingomis jų žiniomis. Kadangi duomenų ir informacijos kokybė yra jų tinkamumas panaudojimui, tai BI technologijų sėkmę apsprendžia būtent duomenų ir informacijos kokybė. Turima duomenų ir informacijos kokybė yra naudojamos BI technologijos efektyvumo įvertinimas.

  

Kiek kainuoja kokybė

Nagrinėjant kokybės problemas dažnai pateikiamas maždaug toks išsireiškimas "Kokybė yra nemokama. Mokėti reikia tiktai ištaisant pasekmes darbų, kurie nebuvo tinkamai atlikti iš karto...". Bet kaip pradedant darbus žinoti, kiek kokybiškai juos reikia atlikti ir kokie reikalavimai šių darbų kokybei išryškės ateityje.

Kokybė gal ir nemokama, tačiau visi žinome, kad nekokybiškų duomenų ir informacijos kaupimas, tvarkymas, naudojimas ir taisymas kainuoja brangiai. Ir kuo toliau, tuo brangiau. Kadangi žengiame į informacinių technologijų, žinių ekonomikos, e-valdžios ir globalizacijos amžių, žmonės darosi aktyvesni ir reiklesni, stiprėja konkurencija ir svarbius sprendimus tenka priiminėti greičiau ir tiksliau. Tokiose sąlygose duomenys ir informacija darosi vis svarbesni ir susilaikyti nuo jų naudojimo priimant svarbius ir greitus sprendimus nebegalima.

Prasta gaunamų į duomenų saugyklas pradinių duomenų kokybė, nesuprantama, neaktuali, pavėluota ir sunkiai prieinama informacija, kuri rengiama ir teikiama sprendimus priimantiems darbuotojams, torpeduoja ir niekais paverčia daugelį BI projektų. Tokius projektus diegiančios institucijos daro didžiules investicijas į pradinių duomenų integravimo priemones, duomenų saugyklas, aktualios informacijos parengimui ir tiekimui skirtą įrangą, žmonių resursus, tačiau rezultate visi šie projektai atsiperka tiktai tiek, kiek gera yra gaunamų duomenų ir teikiamos informacijos kokybė.

The Data Warehousing Institute inicijuoto duomenų kokybės problemų tyrimo ataskaitoje [1] rašoma, kad dėl prastos duomenų kokybės JAV kasmet netenka po 600 milijardų USD. Duomenų ir informacijos kokybės problemoms skirtoje monografijoje [4], psl. 12, rašoma, kad tipiniame institucijos IT biudžete net 40-50% lėšų paprastai skiriama jau vieną kartą sukurtų duomenų ir informacijos ištaisymui, išgryninimui arba sukūrimui iš naujo.

  

Duomenų ir informacijos struktūra. Jų kokybės argumentai

Duomenys ir informacija, nagrinėjant juos kokybės kontekste, turi tą pačią struktūrą. Juos natūralu skaidyti į komponentes tokiu būdu:

Duomenys = Reikšmės + Apibrėžimai + Prezentacija = RD + AD + PD,

Informacija = Reikšmės + Apibrėžimai + Prezentacija = RI + AI + PI.

Duomenų ir informacijos reikšmės atitinkamai  Rir  Rgali būti skaičiai, raidės, žodžiai, brėžiniai, tekstai arba kitokie simboliai ir objektai.

Apibrėžimai  Air  AI  yra paaiškinimai, ką reiškia atitinkamai duomenų ir informacijos reikšmės  Rir  RI.  Vien tiktai reikšmės be paaiškinimų yra bevertės. TDS atveju paaiškinimai yra pateikiami sutartyse dėl duomenų teikimo į TDS, sutartyse dėl TDS naudojimo, duomenų vitrinose ir tipiniuose dokumentuose, duomenų vitrinų naudotojo dokumentacijose, duomenų vitrinų ir tipinių dokumentų aprašuose.

Prezentacijos  Pir  PI  yra būdai, kaip ir kada pateikiami naudotojams atitinkamai duomenų ir informacijos reikšmės bei paaiškinimai. Jie gali būti pateikiami popieriuje, kompiuterinėse bylose, sudarant galimybes nusiskaityti duomenų bazėse ar Interneto tinklapiuose naudojant specialią ar bendro naudojimo programinę įrangą, analizuoti nusiskaitytus duomenis ir kurti savo ataskaitas, visą tai atlikti realiame laike arba kartą per mėnesį ir taip toliau.

Duomenys nuo informacijos skiriasi tiktai savo paskirtimi. Duomenys yra žaliava, o informacija – jau gatavas produktas, kuris gaunamas apdorojant duomenis. Duomenys aprašo faktus, realybę ir yra skirti informacijai parengti. Tačiau niekas nedraudžia duomenis pateikinėti galutiniam naudotojui, kaip informaciją, o informaciją naudoti, kaip duomenis rengiant kitą informaciją.

Šioje apžvalgoje galima buvo iš pat pradžių įsivesti vien tik informacijos sąvoką, kuri struktūrą  I = R + A + P,  ir jau po to duomenis apsibrėžti, kaip tą informaciją, kuri nėra skirta galutiniam naudojimui. Maždaug taip ir daroma monografijoje [4]. Tuo tarpu monografijoje [2] ir duomenys ir informacija vadinami duomenimis.

Akivaizdu, kad duomenims ir informacijai reikšmės, apibrėžimai ir prezentacijos turi skirtingą svorį ir turėtų būti skirtingi. Tačiau abiem atvejais komponenčių  R,  A  ir  P  trūkumai trukdo naudotis duomenimis bei informacija ir turi būti traktuojami, kaip jų kokybės trūkumai.

Informacijos (čia ir toliau apimant, kaip atskirą atvejį, ir duomenis) kokybė yra apibrėžiama, kaip jos reikšmių, apibrėžimų, prezentacijos, informaciją naudojančių žmonių ir informacijos svarbos funkcija

K  =  Kokybė  =  F ( Reikšmės,  Apibrėžimai,  Prezentacija,  Žmonės,  Svarba ).

Funkcijos  F  struktūra gali būti labai įvairi ir priklauso nuo nagrinėjamos BI sistemos, nuo konkrečiai nagrinėjamos informacijos. Šioje apžvalgoje mes detaliau aptarinėsime tiktai šios funkcijos argumentus ir dimensijas (žr. žemiau).

Akivaizdu, kad informacijos kokybė turi priklausyti nuo ją naudojančių žmonių ir nuo informacijos svarbos. Gali būti, kad ta pačia informacija vieni žmonės sugebės naudotis, o kiti nesugebės. Jeigu informacija yra visai nesvarbi jos naudotojams, tai ji turėtų būti traktuojama, kaip nekokybiška. Išties, tokiu atveju ji tiktai užima vietą, užgožia svarbią institucijai informaciją ir jos tvarkymui be reikalo naudojami resursai.

BI technologijoms skirtoje apžvalgoje žiniomis mes vadinome apdorotą informaciją – tai, kas nusėdo jos naudotojų galvose. Šio skyrelio kontekste galima būtų pateikti tokią žinių formulę

Žinios  =  G ( Reikšmės,  Apibrėžimai,  Prezentacija,  Žmonės ).

 Klausimas, ar turėtų  funkcijos  G  argumentų tarpe likti informacijos svarba, yra diskutuotinas. Kai kuriose informacijos kokybės studijose, pavyzdžiui [4], šis argumentas paliekamas ir nagrinėjamos tiktai svarbios institucijai žinios.

  

Informacinė TDS struktūra kokybės kontekste

Galimą ir iš dalies jau esamą informacinę TDS struktūrą duomenų ir informacijos kokybės kontekste pailiustruosime tokia schema:

  

Institucijos – duomenų teikėjai į TDS teikia į Parengimo sritį (Stage Area) duomenis  D1 = R1 + A1 + P1,  kurių naudotojai yra šią sritį aptarnaujantys TDS valdytojo darbuotojai  Ž1.  Kokybės kontrolės sistemoje yra nustatomi komponenčių  R1,  A1 ir P1  trūkumai ir, atsižvelgiant į darbuotojų  Žsugebėjimus  bei poreikius ir į duomenų  D1  svarbą  S1,   įvertinama (arba galėtų būti įvertinama) duomenų  D1  kokybė  K1  =  F ( R1,  A1,  P1,  Ž1,  S1 ).

Parengimo srityje duomenys  D1  yra priimami, atsižvelgiant į Kokybės kontrolės sistemoje nustatytus trūkumus kartu su duomenų teikėjais taisomi ir valomi nuo šiukšlių, reikiamai transformuojami, apjungiami, papildomi išvestiniais rodikliais ir pagal juos sukuriami Duomenų saugyklai ir Naudotojų sričiai reikalingi duomenys   D2 = R2 + A2 + P2 Šių duomenų naudotojai yra Naudotojų sritį ir Duomenų saugyklą aptarnaujantys TDS valdytojo darbuotojai  Ž2. Kokybės kontrolės sistemoje vėl gi nustatomi komponenčių  R2,  A2 ir P2  trūkumai ir, atsižvelgiant į darbuotojų  Žsugebėjimus  bei poreikius ir į duomenų  D2  svarbą  S2,   įvertinama duomenų  D2  kokybė  K2  =  F ( R2,  A2,  P2,  Ž2,  S2 ). Nustatyti trūkumai ištaisomi Parengimo srityje.

Iš naudotojų srities ir Duomenų saugyklos TDS naudotojams yra tiekiama informacija  I = R + A + P.  Tai duomenų vitrinos įskaitant jų apipavidalinimą ir jose eksponuojamus duomenis bei tipiniai dokumentai. Kokybės kontrolės sistemoje vėl gi nustatomi komponenčių  R,  A ir P  trūkumai ir, atsižvelgiant į TDS naudotojų poreikius, jų darbuotojų  Ž  sugebėjimus ir į informacijos  I  svarbą TDS naudotojams  S,   įvertinama informacijos  I  kokybė  K  =  F ( R,  A,  P,  Ž,  S ). Nustatyti trūkumai ištaisomi Parengimo srityje, Naudotojų srityje ir Duomenų saugykloje. Taip pat inicijuojami būtini teikiamų į TDS duomenų  D1  pakeitimai.

  

Duomenų ir informacijos kokybės dimensijos

Funkcija  F  duomenų ir informacijos kokybės apibrėžime yra vektorinė, turinti visą eilę koordinačių – dimensijų. Remdamiesi nusistovėjusiomis tradicijomis, žr. [1-4], ir autoriaus patyrimu tvarkant bei naudojant mokestinius duomenis, trumpai aptarsime pagrindines duomenų ir informacijos kokybės dimensijas, pagal kurias tikslinga vertinti TDS duomenis ir informaciją. Tokių dimensijų gali būti ir daugiau, nei pateikiama šioje apžvalgoje.

 1. Teisingumas

Tikriausiai kiekvienas, bandydamas paaiškinti kas yra duomenų kokybė, pradėtų nuo duomenų teisingumo. Nes visų pirmiausiai naudojami duomenys turi būti teisingi. Visi žinome, kad geriau neturėti jokios informacijos, negu turėti neteisingą.

Pats paprasčiausias neteisingų duomenų pavyzdys yra įrašas duomenų bazės lentelėje apie įmokas į VMI surenkamąsias sąskaitas su nurodyta įmokos data 1905-12-14. Aišku, kad ši data nurodyta neteisingai, kadangi 1905 metais VMI dar nebuvo. Tokio tipo klaidas lengva išryškinti, nes nurodyta rodiklio reikšmė nepapuola į galimų rodiklio reikšmių sritį.

Kitas neteisingų duomenų pavyzdys bus, jeigu PVM deklaracijoje konkretus PVM mokėtojas per klaidą deklaruos 100 kartų didesnę mėnesinių pardavimų sumą, negu buvo iš tikrųjų. Paprasčiausiai prisirašė skaičiaus pabaigoje du nereikalingi 0. Gal būt suma buvo bandoma nurodyti su centais ir kažkaip tai nusitrynė kablelis. Pardavimai mokesčių administravimo prasme yra ne pagrindinis rodiklis, todėl tokia klaida pagrindiniuose deklaracijos langeliuose neatsispindi ir gali likti kurį tai laiką nepastebėta.

Šiuo atveju klaidingai nurodyta reikšmė papuola į galimų rodiklio reikšmių sritį. Tokias reikšmes iš karto paskelbti neteisingomis negalima. Todėl jas vadiname tiktai įtartinomis teisingumo prasme. Jas būtina papildomai patikrinti. Tokias klaidas išryškinti daug sudėtingiau, nei negalimų rodiklio reikšmių atveju, tačiau irgi galima. Pavyzdžiui, lyginant deklaruotas sumas su to paties mokėtojo pernai ar praėjusį mėnesį deklaruotomis sumomis, su vidurkiais panašių mokesčių mokėtojų grupėje, apskaičiuojant pateiktų duomenų sumines eilutes, įvairius išvestinius rodiklius ir nagrinėjant jų dinamiką laike.

Dar kitas klaidingų duomenų pavyzdys bus, jeigu turime įrašą duomenų lentelėje su neegzistuojančio mokesčių mokėtojo kodu arba, kas dar blogiau, su ne to mokesčio mokėtojo kodu.

Teisingumas yra natūrali duomenų kokybės dimensija. Nors gali būti naudojama ir informacijos kokybei įvertinti. Vertinant duomenų  D = R + A + P  teisingumą yra išryškinami jų komponentės  R = Reikšmės  trūkumai. Natūrali kiekybinė duomenų neteisingumo išraiška yra neteisingų reikšmių dalis visose pateiktose reikšmėse. Pavyzdžiui, 1% arba 0,15%.

  

 2. Pilnumas

Ar visų sutartyje dėl duomenų teikimo pažadėtų rodiklių reikšmės yra nurodytos teikiant duomenis? Gal būt duomenų lentelėse yra daug neužpildytų langelių. Pavyzdžiui, eilėje įrašų nenurodytas JA kodas arba jo pagrindinė ekonominė veikla. O gal iš viso lentelėje trūksta įrašų ir suminį vaizdą mes matome iškreiptą?

2002 metų pabaigoje duomenų kokybės skandalas VMI kilo agreguojant turimus PVM deklaracijos duomenis pagal iš Statistikos departamento gautas įmonių pagrindines ekonomines veiklas. Mažmeninės prekybos grupės atveju gavome, kad pardavimai mažėja, kai iš tikrųjų jie didėjo. Klaidingos išvados priežastis – turimuose duomenyse daugeliui stambių įmonių buvo nenurodyta pagrindinė ekonominė veikla (duomenų pilnumo klaida!). Ir vykdant užklausas šios įmonės buvo priskiriamos neišaiškintos pagrindinės ekonominės veiklos grupei.

Pilnumas taip pat yra pirmiausiai duomenų kokybės dimensija. Vertinant duomenų  D = R + A + P  pilnumą yra išryškinami jų komponentės  R = Reikšmės  trūkumai. Natūrali kiekybinė duomenų nepilnumo išraiška yra nepateiktų reikšmių dalis visose pateiktose reikšmėse. Pavyzdžiui, 14% arba 0,25%.

  

3. Integralumas

Ar galima surišti duomenis, paimtus iš skirtingų duomenų šaltinių? Pavyzdžiui, Policijos departamentas nori surišti savo duomenis apie skirtas baudas už kelių eismo taisyklių pažeidimus su VMI duomenimis apie fizinių asmenų įmokas į VMI surenkamąsias sąskaitas. Norima sužinoti, ar konkretūs eismo taisyklių pažeidėjai sumokėjo ir kada sumokėjo jiems skirtas baudas. Bet VMI duomenyse mes neturime lauko (nutarimo numerio), kuris vienareikšmiškai identifikuotų baudos paskyrimo nutarimą. Vadinasi, šios dvi duomenų aibės yra neintegralios – jos negali būti korektiškai apjungtos.

Neintegralūs gali būti ir vienoje duomenų vitrinoje eksponuojami duomenys. Pavyzdžiui, TDS duomenų vitrinoje "Konsoliduota F1VP" šiuo metu negalima surišti 2004 ir 2007 metų duomenų, nes tais metais buvo naudojamos skirtingos Mėnesinės mokesčių ir kitų įmokų apyskaitos F1VP ir jų eilutės su tais pačiais numeriais gali įreikšti skirtingus mokesčius ar įmokas. Būtina turėti apjungiantį šias apyskaitas mokesčių klasifikatorių, kurio šiuo metu TDS nėra.

Kitas pavyzdys būtų Valstybės įmonės “Registrų centras” Nekilnojamojo turto registro duomenys ir VMI duomenys apie mokesčių mokėtojus ir jų įmokas į VMI surenkamąsias sąskaitas. Šių duomenų taip pat negalima norimai surišti pagal savininkų, žemės sklypų ir kitus nekilnojamojo turto kodus.

Integralumas taip pat yra natūrali duomenų kokybės dimensija. Vertinant duomenų  D = R + A + P  integralumą yra išryškinami jų komponentės  P = Prezentacija  trūkumai. Kiekybinės charakteristikos nevartojamos – duomenys yra arba integralūs (pavyzdžiui, pagal laiką, pagal mokesčių mokėtojus, pagal mokesčių rūšis, pagal patikrinimų rūšis ir t.t.), arba ne.

  

4. Pagrįstumas

Ar iš tikrųjų surinkti duomenys turi tą prasmę, kurią mes jiems priskiriame? Gal būt registruojamas rodiklis atspindi realybę su postūmiu, pavyzdžiui, ją sumažindamas arba padidindamas? O gal pateikiamas rodiklis iš viso neturi prasmės ir neturėtų būti naudojamas?

Nepagrįstų duomenų pavyzdį gausime, jeigu bandysime apskaičiuoti PVM mokėtojo nepriemoką atimdami iš jo PVM deklaracijose deklaruotų sumokėti PVM sumų faktiškai jo sumokėtas sumas, kurias nustatysime pagal mokėjimų į VMI surenkamąsias sąskaitas duomenis. Taip apskaičiuotas rodiklis Nepriemoka bus nepagrįstas PVM mokestinės prievolės įvertinimas todėl, kad PVM deklaracijose neatsispindi baudos ir delspinigiai, kad atlikus mokesčio mokėtojo auditą ir patikslinus jo mokėtinas PVM sumas anksčiau pateiktos PVM deklaracijos ne visada yra ištaisomos ir dar dėl visos eilės priežasčių.

Duomenų pagrįstumo klaidos atsiranda tada, kai apjungiamos kelios duomenų aibės, kuriose atskiri rodikliai vadinami panašiai, tačiau turi skirtingą prasmę. Aarba kai duomenų gavėjai ir teikėjai nevienodai juos supranta.

Pagrįstumas yra natūrali duomenų  D = R + A + P  ir informacijos  I = R + A + P  kokybės dimensija. Vertinant integralumą yra išryškinami jų komponentės  A = Apibrėžimai  trūkumai.  Kiekybinės charakteristikos nevartojamos – duomenys ir informacija yra arba pagrįsti, arba ne.

  

5. Suprantamumas

Ar teikiama informacija yra lengvai suprantama jos gavėjams? Gal jiems dar kelias dienas reikia aiškintis, ką gaunami duomenys reiškia ir kaip jie yra užkoduoti? Ar teikiama informacija yra pakankamai aiškiai aprašyta ir įprasta jos naudotojams?

Ar pateikiami duomenys yra tikrai reikalingi ir naudingi? Pertekliniai duomenys labai apsunkina gaunamos informacijos supratimą. Gal būt svarbiausius duomenis užgožia praktiškai nereikalingi, realiai nenaudojami ir tiktai “renkami, tvarkomi bei perduodami” duomenys?

Suprantamumas yra natūrali informacijos  I = R + A + P  kokybės dimensija. Vertinant suprantamumą yra išryškinami komponentės  P = Prezentacija  trūkumai.  Siekiant kiekybiškai įvertinti suprantamumą gali būti naudojami keli jo lygiai. Pavyzdžiui, gerai suprantama, suprantama ir blogai suprantama informacija.

  

 6. Prieinamumas

Ar naudotojams yra realiai pasiekiami sukaupti informacinėse sistemose duomenys? Gal būt jie padėti taip, kad programuotojai turi dirbti pusę metų, kol juos “iškas iš po žemių”? Pagrindinė Duomenų saugyklos paskirtis ir yra tai, kad reikalingų duomenų nereikėtų kiekvieną kartą “kasti iš po žemių”.

Ar pakankamai greitai sukasi Duomenų saugyklos serveris ir galutiniai TDS naudotojai gauna atsakymus į savo užklausas? Ar duomenys tinkamai sudėti į duomenų vitrinas ir ar gerai parinkti matomi galutiniams TDS naudotojams objektai, kad pasiimant duomenis nebereikėtų atlikinėti sudėtingų transformacijų?

O gal lėto TDS darbo priežastis yra prastas kompiuterinis ryšys?

Prieinamumas taip pat yra natūrali informacijos  I = R + A + P  kokybės dimensija. Vertinant prieinamumą yra išryškinami komponentės  P = Prezentacija  trūkumai.  Siekiant kiekybiškai įvertinti prieinamumą gali būti naudojami keli jo lygiai. Pavyzdžiui, labai gerai, gerai, patenkinamai, blogai ir labai blogai prieinama informacija. Kiekybiškai vertinti prieinamumą galima ir laiku, per kurį galutinis TDS naudotojas gauna iš Duomenų saugyklos kokios nors standartinės duomenų užklausos duomenis.

  

7. Savalaikiškumas

Ar laiku pateikiama informacija jos naudotojams? Mažai naudos iš duomenų ir parengtos pagal juos informacijos, jeigu jie pateikiami po laiko. Jau po to, kai priimti sprendimai ir parengtos apibendrinančios ataskaitos.

Pavyzdžiui, šiuo metu Pelno mokesčio deklaracijos ir Finansinės atskaitomybės dokumentai už ataskaitinius metus atsiranda TDS tiktai kitų metų pabaigoje. Ar ne per vėlai?

TDS duomenų vitrinos "PVM deklaracijos" duomenys atnaujinami kiekvieną pirmadienį, parengtos pagal VSDF valdybos duomenis duomenų vitrinos "Draudėjai" – iki kito ketvirčio 2-rojo mėnesio pabaigos, o duomenų vitrinos "Mokėjimai į VMI sąskaitas" - antradieniais, ketvirtadieniais ir šeštadieniais. Ar pakanka tokio duomenų savalaikiškumo?

Savalaikiškumas yra natūrali duomenų  D = R + A + P  ir informacijos  I = R + A + P  kokybės dimensija. Vertinant savalaikiškumą yra išryškinami komponentės  P = Prezentacija  trūkumai. Kiekybinės charakteristikos nevartojamos – duomenys ir informacija yra arba savalaikiai, arba ne.

  

8. Reikalingumas

Duomenys ir informacija gali būti daugiau arba mažiau svarbūs jų naudotojams. Nereikalingų duomenų ir informacijos tvarkymas BI sistemoje yra didelis jos trūkumas. Tokie duomenys ir informacija užgožia reikalingus, trukdo suprasti reikalingą informaciją, jų tvarkymui naudojami paprastai labai brangūs sistemos resursai.

Reikalingumas yra natūrali duomenų  D = R + A + P  ir informacijos  I = R + A + P  kokybės dimensija. Ji įvertina kokybės funkcijos argumentą  S = Svarbumas.  Siekiant kiekybiškai įvertinti reikalingumą gali būti naudojami keli jo lygiai. Pavyzdžiui, labai reikalingi, reikalingi ir nereikalingi duomenys bei informacija.

  

Apie Kokybės kontrolės sistemas

Duomenų ir informacijos kokybės kontrolės sistemą (apžvalgoje – Kokybės kontrolės sistema) būtina suprasti, kaip visumą institucijos pastangų užtikrinant reikiamą savo duomenų ir informacijos kokybę, žr. [2], psl.75. Tai ne vien tiktai šiam tikslui naudojama kompiuterinė ir programinė įranga, bet ir šį darbą dirbantys darbuotojai, jų veikla, organizacinės priemonės ir institucijos vadovybės parama.

Monografijoje [2] rašoma, kad Kokybės kontrolės sistemoje (ten jos vadinamos Data quality systems) atliekami arba turėtų būti atliekami tokie darbai:

1. Duomenų ir informacijos naudotojų pastebėtų klaidų ir trūkumų taisymas. Dėl naudotojams pateiktos klaidingos informacijos atsiradusių nuostolių kompensavimas, ištaisytos informacijos teikimas, informacijos teikimo sutartyse numatytų baudų ir kompensacijų mokėjimas.

2.  Reguliariai atliekamo visos informacinės sistemos duomenų valymo priežiūra.

3.  Kasdien atliekamų dalies duomenų valymų priežiūra. Tokie kasdieniai valymai paprastai atliekami vykdant duomenų importo ir eksporto operacijas.

4. Duomenų ir informacijos klaidų bei trūkumų prevencija.

Monografijoje [2] rašoma, kad daugelyje Kokybės kontrolės sistemų atliekami tiktai 1-3 darbai. Tokios sistemos vadinamos pirmos kartos Kokybės kontrolės sistemomis. Ir tik nedaugelyje sistemų atliekami visi 1-4 darbai. Tokios sistemos vadinamos antros kartos Kokybės kontrolės sistemomis. Trečios kartos Kokybės kontrolės sistemomis vadinamos tokios, kuriose duomenų ir informacijos srautai projektuojami taip, kad jų klaidos ir trūkumai būtų negalimi. Monografijos [2] autorius Thomas Redman rašo, kad jis iki šiol tokių sistemų nėra matęs, bet jų ieško ir tikisi surasti.

Baigdami šį skyrelį pirmos, antros ir trečios kartos Kokybės kontrolės sistemas pailiustruosime tokia lentele:

 

 

Duomenų ir informacijos srautai projektuojami taip, kad jų klaidos ir trūkumai būtų negalimi

 

Duomenų ir informacijos klaidos ir trūkumai gaudomi ir taisomi ten, kur jie atsiranda

 

Duomenų ir informacijos naudotojų išryškinti klaidos ir trūkumai taisomi. Kompensuojamos pasekmės. Vedama apskaita

 

 

Pirmos kartos
Kokybės kontrolės sistema

Antros kartos
Kokybės kontrolės sistema

Trečios kartos
Kokybės kontrolės sistema

  

Duomenų ir informacijos kokybės perspektyvos

Apžvalgos skaitytojas tikriausiai jau patikėjo, kad naudojamų duomenų ir informacijos kokybė yra labai svarbu. Ir kuo toliau, tuo labiau. Kadangi ir toliau nesinaudoti duomenimis bei informacija priimant svarbius ir greitus sprendimus nebegalima. Institucijose būtina turėti kokybiškos informacijos saugyklą – kolektyvinį kokybiškų ir aktualių žinių šaltinį visiems institucijos darbuotojams.

Atrodytų, kad artimiausiu metu daugelio institucijų reikalai su duomenų ir informacijos kokybe turėtų ženkliai pagerėti. Autorius tiki, kad kada nors tolimoje ateityje taip ir įvyks, tačiau jo nuomone artimiausiu metu taip nebus. Daugeliui mūsų šalies institucijų, ypač viešojo administravimo institucijoms, duobės dugnas vargstant su nekokybiškais duomenimis ir informacija dar priekyje. Ir iš duobės išlips tiktai tos institucijos, kurioms duomenų ir informacijos kokybė pasidarys labai svarbu. Kodėl? Ženklai, kurie verčia daryti šias liūdnas prognozes, yra tokie:

Nesuprantama organizacinių priemonių ir darbo su informacijos naudotojais reikšmė. Galvojama, kad reikiamą duomenų ir informacijos kokybę galima užtikrinti įsigyjant vien tik kompiuterinę ir programinę įrangą.

BI sistemos paslaugomis nesinaudojama. Bandė naudotis ir nusivylė. Sudėtinga, informacija nepatikima ir nekokybiška. Tačiau nenaudojama informacija negali būti kokybiška. Gaunasi užburtas ratas, iš kurio išlipti yra labai sunku.

Daugelyje institucijų dar galima priiminėti svarbius sprendimus vadovaujantis intuicija ir anksčiau įgytu patyrimu. Ir turima informacija savo užrašų knygutėje arba operatyvioje atmintyje.

Nepasitikima kitų parengta informacija. Žmogus iš prigimties linkęs turėti savo asmenišką užrašų knygutę, savo kompiuterinę bylą, savo programą.

Nenorima, kad svarbi informacija būtų prieinama kitiems. Norima išlaikyti informacijos monopolį.

Didžioji dalis tinklapių Internete yra labiau panašūs į pasenusių netvarkingų dokumentų sąvartyną, o ne į aktualios, suprantamos ir prieinamos informacijos saugyklą. Matosi, kad šių tinklapių valdytojai dar nesupranta, kas yra informacijos kokybė, ir jų tinklapiuose skelbiama informacija jiems nėra labai svarbi.

  

Informacijos šaltiniai apie duomenų ir informacijos kokybę

[1]   Wayne W. Eckerson. Data Quality and the Bottom line. Achieving Business Success through a Commitment to High Quality Data. TDWI report, 2002, 36 p.

[2]   Thomas Redman. Data Quality: The Field Guide. Digital Press, 2001, 256 p.

[3]   Larry P. English. 10 Years of Information Quality Advances: What Next? Published in DM Review in February 2001.

[4]   Larry P. English. Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits. John Wiley & Sons, 1999, 544 p.

Žr. taip pat: http://www.tdwi.org, http://www.dmreview.com, http://www.bireview.com, http://www.b-eye-network.com.

  

 

Tarpžinybinės mokestinių duomenų saugyklos naudojimo galimybės

2007 metų spalis

©  IVPK