Open Data

OPEN DATA (Otevřená data)
Data, která obsahují výsledky vědeckého výzkumu a jsou bez omezení přístupná široké veřejnosti, která je může za jakýmkoli účelem (i opakovaně) použít a šířit. Omezení (např. nutnost uvedení autora) jsou dána licenčními podmínkami.

Open Data by měla splňovat zejména tyto podmínky:

  • dostupnost (data volně dostupná data ke stažení z internetu ve vhodném a upravitelném formátu)
  • znovupoužitelnost (data opatřena licencí umožňující opakované využití s minimem omezení),
  • univerzálnost (data dostupná všem k dalšímu využití a šíření všem bez rozdílu, a to včetně využití ke komerčním účelům).

Výhody Open Data:

  • ověření výsledků výzkumu a možnost dalšího kritického zkoumání,
  • vyhnout se zbytečnému opakování výzkumu,
  • analyzovat získané údaje v plném rozsahu a využít je v navazujících projektech,
  • sdílením výsledků z výzkumu zefektivnit a urychlit výzkumný proces,
  • dojít k novým poznatkům díky sloučení údajů z různých zdrojů,
  • zvýšit citační ohlas a důvěryhodnost vědců.

DATA MANAGEMENT PLAN (DMP)
Dokument, který popisuje nakládání s výzkumnými daty během jejich tzv. životního cyklu (sběr dat, zpracování dat, analýza dat, uchování dat, přístup k datům, opětovné použití dat). Specifikuje, jaká data a jakým způsobem budou během výzkumu vytvářena, včetně jejich dostupnosti a možnému využití během výzkumu i po jeho ukončení.

Výhody DMP:

  • možnost předvídat potenciální problémy,
  • snížení rizika duplicitní práce, ztráty dat a narušení bezpečnosti,
  • zajištění přesnosti, úplnosti a spolehlivosti dat,
  • pomoc při sdílení dat, zlepšení komunikace s uvedením konkrétních osob zodpovědných za jednotlivé úkony v procesu práce s daty,
  • zajištění kontinuity dlouhodobých procesů a zajištění zvýšení integrity výzkumu v případě personálních změn ad.

Ke tvorbě DMP je možné využít některé online nástroje:

  • DMPonline (jednoduchý online nástroj pro tvorbu a správu DMP, nabídka šablon pro projekty různých poskytovatelů i konkrétní ukázky DMP)
  • Data Stewardship Wizard (open source nástroj pomáhá s plánováním a sestavením DMP, generuje šablony a poskytuje různé výstupy a sdílení s dalšími vědci)
  • Argos (online nástroj integrovaný v platformě OpenAIRE)
  • Open Science Framework (open source webová platforma pro správu celého projektu)

ZVEŘEJNĚNÍ VÝZKUMNÝCH DAT
Základním principem otevřených dat je „As open as possible, as closed as necessary“, tedy „Otevřít tak, jak je to možné, uzavřít tak, jak je to nezbytné.“ Je nutné proto nejdříve pečlivě zvážit, jaká data a jakým způsobem zveřejnit. Vhodné je zveřejňovat všechna data s výjimkou těch, u kterých to neumožňují právní aspekty, a to zejména u takových, která obsahují osobní údaje. Ty je možné tzv. anonymizovat, např. s pomocí online nástroje Amnesia.

Okamžik zveřejnění dat v průběhu výzkumu je zcela v režii autora. Z důvodu obav ze zneužití nebo krádeže se může rozhodnout zveřejnit data až po ukončení celého projektu nebo tehdy, kdy už z nich jako autor není schopen nic nového vytěžit.

Aby byla data otevřená a také použitelná, je potřeba věnovat zvýšenou pozornost jejich formátu a zpracování (vhodný formát, řádný popis metadat, licence). Vhodnou podobu zveřejněných otevřených dat popisují tzv. FAIR principy:

  • Findable (vyhledatelná): data uložena online na vhodném místě jednoduše dohledatelném, popsána metadaty a opatřena jedinečným a perzistentním identifikátorem
  • Accessibile (dostupná): data dostupná za jasně daných podmínek a v případě nedostupnosti některých dat je nutné zajistit alespoň metadatový záznam
  • Interoperable (interoperabilní): k popisu dat jsou použity standardizované výrazy, zahrnují reference na další data; vhodné standardy lze nalézt např. na Seznamu metadatových standardů DCC nebo na Portálu otevřených dat
  • Reusable (znovupoužitelná): data kvalitně popsána, opatřeny licencí a použity relevantní standardy daného oboru

LICENCE
Důležitou podmínkou ke zveřejnění a dalšímu volnému používání otevřených dat je jejich opatření licencí. Repozitáře mají zpravidla licenci již nastavenou.

Vhodnou veřejnou licencí je např. Open Data Common nebo Creative Commons (CC). V souladu s principy otevřených dat jsou doporučovány tyto dvě licence:

  • CC-BY 4.0 (licence umožňující komukoli využít data jakýmkoliv způsobem, s nutností uvést jméno autora)
  • CC0 (volné dílo – licence umožňující komukoli využít data jakýmkoliv způsobem, uvedení autora je považováno za standard, ale není v tomto případě právně vymahatelné, autor neposkytuje žádné záruky a zříká se odpovědnosti za veškeré možné způsoby užití)

Podrobnější informace k licencím Creative Commons jsou k dispozici v Příručce postupů Otevřené vědy (Řídicí orgán OP JAK, 2022, s. 9).

DATOVÉ REPOZITÁŘE A ČASOPISY
Vědecká data mohou být uložena v repozitářích specializujících se na určitý obor nebo předmět výzkumu nebo zveřejněna v datových časopisech. K dispozici jsou repozitáře obecné (př. Zenodo), oborové (př. Europe PMC, CLARIN-DK-UCPH), institucionální (př. ASEP) ad.

Vhodný repozitář lze vyhledat prostřednictvím mezinárodního registru repozitářů pro výzkumná data Re3data nebo pomocí databáze otevřených repozitářů OpenDOAR.

Při výběru repozitáře je třeba sledovat, jaké služby v případě publikování poskytuje:

  • poskytuje otevřený přístup,
  • je důvěryhodný či certifikovaný,
  • přiděluje perzistentní identifikátor,
  • je datům automaticky udělena licence,
  • umožňuje aktualizovat verze datasetů apod.

Podrobnější informace s přehledným seznamem dostupných repozitářů je k dispozici v Příručce postupů Otevřené vědy (Řídicí orgán OP JAK, 2022, s. 31).

Datové časopisy publikují recenzované, tzv. datové články. Datové články se zaměřují na popis určitých volně dostupných datasetů a upozorňují na možnost jejich využití, rozsah, kvalitu i potenciál, např. Research Data Journal for the Humanities and Social Sciences a další najdete zde.