reprezentatív is. Ahhoz, hogy statisztikailag
érvényes következtetéseket vonjunk le egy-egy adatállományból,
tudnunk kell, hogy honnan származik, és melyek a gyengeségei.
Tudatában kell lennünk azoknak a tényezőknek, amelyek az értelmezést
torzítják. A nagy adatok ezenkívül arra hajlamosítanak, hogy
összefüggéseket lássunk ott is, ahol nincsenek. A több adat tehát
nem mindig jobb adat. A nagy adat pedig nem azonos az adatok
teljességével.
Gondolnunk kell arra is, hogy a nagy adatokkal
kapcsolatos etikai kérdésekről keveset tudunk. Az a tény, hogy
valami elérhető, nem feltétlenül teszi a felhasználását etikussá. Az
adatközlők névtelensége például hamar elillanhat, ami különösen
összetett kérdéseket vet fel a közösségi oldalakról vett adatok
esetében. Felmerül az a kérdés is, hogy kell-e ezek felhasználásához
engedélyt kérnünk az érintettektől, továbbá mit jelent az egyén
számára, ha tudtán kívül, vagy az eredetitől eltérő kontextusba
helyezve elemzik a tevékenységét (Boyd – Crawford, 2012).
Az adatmegosztás további feltételei
A hatékony megosztás megköveteli, hogy az adatok konzisztens mutatók
segítségével megtalálhatóak legyenek. Ehhez meg kell őriznünk, és
hosszú távon hozzáférhetővé kell tennünk őket. Minőségüknek lehetővé
kell tennie, hogy használhatók legyenek (Kowalczyk – Shankar, 2011).
Az adatok megosztásához tudnunk kell a
következőket, bár a kérdésekre nem mindig tudunk igen-nem válaszokat
adni: Létezik-e az adatkészlet? • Hol található? • Sérült vagy
elavult-e? • Van-e engedélyünk a használatára? • Eléggé szabványos-e
ahhoz, hogy elfogadható mértékű erőfeszítéssel használni tudjuk? •
Elég világos-e, hogy mit reprezentál? • Eredete és hibaarányai
ismertek és elfogadhatók-e, tehát megbízhatónak tekinthető-e? •
Célszerű-e felhasználnunk céljaink elérésére?
Ezek a kérdések láncolatot alkotnak, tehát ha
létezik az adatkészlet, lehet, hogy nem férhetünk hozzá. Ha
hozzáférünk, előfordulhat, hogy nem használható. Ha használható,
nincs használatára engedélyünk, és így tovább. Bármelyik probléma
magakadályozhatja a felhasználást. Amikor pedig elhárítjuk az egyik
akadályt, egy másik még mindig lehetetlenné teheti a felhasználást
(Buckland, 2011).
Az adatok nyilvánosságra kerülésének önmagában nincs értelme, ha
nincs, aki használja őket. Miközben bizonytalanság van abban a
tekintetben, hogy miként vállaljanak részt az adatok kezeléséből az
egyetemek vagy a kutatás finanszírozásában részt vevő szervezetek, a
könyvtárak elvileg jó helyzetben vannak ahhoz, hogy kulcsszereplővé
váljanak ebben, mivel tapasztalatuk van a válogatásban, a különböző
gyűjtemények működtetésében, a megőrzésben, a gondozásban és a
hozzáférés biztosításában (Stuart, 2011).
Nem téveszthetjük szem elől, hogy bizonyos adatok
megosztható formában állnak rendelkezésre, míg mások nem. Bizonyos
adatok értékét felismeri az adott közösség, míg másokét nem. Egyes
kutatók minden adatukat bármikor hajlandók megosztani, míg mások
soha semmilyen adatukat nem gondolnák megosztani. A leggyakoribb
azonban az, hogy bizonyos adataikat néha hajlandóak megosztani
(Borgman, 2012).
Az adatok minősége sokdimenziós jellemző. Része a
bizalom, amelynek mértéke számos szubjektív tényezőtől függ. Ezek
közé tartozik, hogy az adatokat autentikusnak ítéljük-e meg,
elfogadhatónak találjuk-e felhasználásukat vagy alkalmazásukat.
Hasonló tényező azoknak a jó híre, akik az adatokat létrehozzák. A
minőség megítélését befolyásolják az adatok értékelőinek
elfogultságai és előítéletei. Annak ellenére, hogy igen összetett
kérdés, a hitelességen alapuló bizalom problémáját is
megemlíthetjük, különösen azért, mert felülírhat más szempontokat. A
hitelesség ebben a kontextusban annak körülbelüli mértéke, hogy az
adatok mennyire a „jó tudományt” tükrözik, és olyan kérdéseket állít
a középpontba, mint az adatgyűjtés eszközeinek megbízhatósága, az
elméleti alapok megfelelő volta, az adatok teljessége, pontossága és
érvényessége, valamint az adatok ontológiai következetessége. Annak
érdekében, hogy a hitelességet meg tudjuk ítélni, az adatoknak
érthetőnek kell lenniük.
Az érthetőség értékeléséhez nélkülözhetetlen, hogy
az adatokat leíró dokumentáció, az azonosításukra szolgáló, egységes
szerkezetben készült metaadatok vagy az adatok eredetére vonatkozó
információk formájában elegendő kontextus álljon rendelkezésre,
valamint az, hogy az adatok használhatók legyenek.
A használhatóság megköveteli, hogy az adatok
megtalálhatók és hozzáférhetők legyenek, méghozzá megfelelő
fájlformátumokban. Az adatok minőségét megítélő egyéneknek megfelelő
eszközökkel kell rendelkezniük az eléréshez, továbbá biztosítani
kell az adatok megfelelő mértékű integritását.
Az integritás az adatok minőségével szembeni
elvárás, tehát az a bizonyosság, hogy az adatok teljesek és
hiánytalanok, konzisztensek és helyesek intellektuálisan és
technikai szempontból is. Az integritást a létrehozás és a használat
bármely fázisában veszélyeztethetik emberi hibák. Mivel az adatok
javítása mindig költséges, a legjobb gyakorlat az, ha kezdettől
fogva helyes adatokkal dolgozunk.
Bizonyos tudományterületeken nem elégséges a nyers
adatokat megosztanunk, a használhatósághoz szükség lehet az adatok
létrehozásához használt, elemzéséhez és megosztásához használható
eszközök és módszerek leírására is (Kowalczyk – Shankar, 2011).
Az adatfogalom értelmezése azért is eltérő, mert
bizonyos megfigyelések eredményeit adatoknak tekintheti az, aki
gyűjtötte őket, amit azonban a befogadók nem így fognak fel.
Fordított esetben, a kutató birtokában lehet anyagoknak anélkül,
hogy tudatosulna benne, hogy mint adatok milyen értéket képviselnek
(Borgman, 2012).
Annak érdekében, hogy az adatok megtalálhatók,
elérhetők és használhatók legyenek, ki kell alakítanunk a tárolás és
a visszakeresés megfelelő technikai és szervezeti infrastruktúráit.
Bár a nagy adatállományok archiválásának megvan a technológiája, ez
nem egyszerű feladat, mert adatainkat könnyen hozzáférhetővé és jól
leírhatóvá kell tenni (Kowalczyk – Shankar, 2011).
A gondozásnak a digitális források jövőbeni
használhatóságát olyan módon kell biztosítania, hogy a kutatók
tudhassák, micsoda és honnan származik az adott objektum, miért
fontos és hogyan kell használni. Az ehhez szükséges kontextust
dokumentációk vagy metaadatok, valamint ezek keveréke adja meg.
A gondozás során szükség lehet arra, hogy döntsünk
adatok törléséről, ami bizalmas adatok esetében biztonságos
megsemmisítésüket jelentheti. Az adatok gondozásának költségei meg
is követelik, hogy időről időre felülvizsgáljuk, mely adatokat
őrzünk meg, és ezt kell tennünk akkor is, amikor az adatokat új
formára alakítjuk, vagy az elavulástól védendő, új hardver- és
szoftverkörnyezetbe visszük át (Pryor, 2012).
A kutatási adatok talán legtágabb szakmai
kontextusát a (néha adatinformációs írástudásnak nevezett)
adat-írástudás jelenti, amelyet legegyszerűbben úgy határozhatunk
meg, mint az adatok megértésének, használatának, kezelésének
képességét (Qin – D’Ignazio, 2010).
Összegzés
A nyíltságra és átláthatóságra olyan trendként tekintenek a
politikusok, a finanszírozó szervezetek, valamint a kutatók, amely
elhozza a jobb és gyorsabban fejlődő tudományt és innovációt. Sokak
meggyőződése, hogy a közpénzekből finanszírozott kutatások során
keletkezett adatok újrafelhasználása gazdasági előnyökkel is járhat.
A (már említett) RECODE projekt eredményei azonban azt mutatták,
hogy erre egyelőre nincsen elegendő bizonyíték. A megkérdezett
kutatók véleménye pozitív volt ugyan, viszont a megvalósíthatóságot
sokan megkérdőjelezik, többek között a feladatok összetettsége okán.
Kulcsfontossága van tehát az adatok értelmezésének,
ami szakértelmet igényel, és ami nélkül az adatok nem használhatók
fel további kutatásokhoz. Végül, de nem utolsósorban, minden
tudományág más és más megközelítést igényel (Sveinsdottir, 2014).
Kulcsszavak: kutatási adatok, nagy adatok, adatmegosztás, nyílt
adatok
IRODALOM
Borgman, Christine L. (2007): Scholarship
in the Digital Age: Information, Infrastructure, and the Internet.
MIT Press, Cambridge, MA
Borgman, Christine L. (2012): The
Conundrum of Sharing Research Data. Journal of the American Society
for Information Science and Technology. 63, 6, 1059–1078.
DOI: 10.1002/asi.22634 •
WEBCÍM
Boulton, R. et al. (2012): Science as an
Open Enterprise. The Royal Society, London •
WEBCÍM
Boyd, Danah – Crawford, Kate (2012):
Critical Questions for Big Data: Provocations for a Cultural,
Technological, and Scholarly Phenomenon, Information, Communication
& Society. 15, 5, 662–679. DOI: 10.1080/1369118X.2012.678878 •
WEBCÍM
Buckland, Michael (2011): Data Management
as Bibliography. Bulletin of the American Society for Information
Science and Technology. 37, 6, 34–37. •
WEBCÍM
Davies, Anna – Fidler, D. – Gorbis, M.
(2011): Future Work Skills, 2020. Institute for the Future, Palo
Alto, CA •
WEBCÍM
EC Guidelines (2013): Guidelines on Data
Management in Horizon 2020. European Comission •
WEBCÍM
Kowalczyk, Stacy – Shankar, Kalpana
(2011): Data Sharing in the Sciences. Annual Review of Information
Science and Technology. 45, 1, 247–294.
DOI: 10.1002/aris.2011.1440450113 •
WEBCÍM
Murphy, Fiona (2014): Data and Scholarly
Publishing: The Transforming Landscape. Learned Publishing, 27, 5,
3–7. DOI: 10.1087/20140502 •
WEBCÍM
Norman, Hazel (2014): Mandating Data
Archiving: Experiences from the Frontline. Learned Publishing. 27,
5, 35–38. DOI: 10.1087/20140507 •
WEBCÍM
Pryor, Graham (2012): Why Manage Research
Data? In: Pryor, Graham (ed.): Managing Research Data. Facet,
London, 1–16.
Qin, Jian – D’Ignazio, John (2010):
Lessons Learned from a Two-year Experience in Science Data Literacy
Education. In: Proceedings of the 31st Annual IATUL Conference,
June, 20–24, 2010 •
WEBCÍM
Stuart, David (2011): Facilitating Access
to the Web of Data. Facet, London
Sveinsdottir, Thordis (2014): The Meaning
of Data: On the Development of Open Access to Research Data.
Methodological Challenges, February 17, 2014, •
WEBCÍM
Z. Karvalics László (2007): A
Cyber-infrastruktúra mint aktuális kihívás és mint
tudományszociológiai probléma. Magyar Tudomány. 167, 4, 475–489. •
WEBCÍM
|