Strona: Przygotowanie danych badawczych / Centrum Informacyjno-Biblioteczne

Przygotowanie danych badawczych

I. Przed udostępnieniem danych pozyskanych zgodnie z zaplanowanym procesem badawczym należy przeprowadzić selekcję, ponieważ nie wszystkie dane muszą zostać udostępnione.

Wskazówki do selekcji danych:

  1. Wymagania prawne zobowiązujące nas do archiwizacji danych (w tym wymagania agencji finansujących badania naukowe)
  2. Wartość naukowa lub historyczna: tu musimy rozważyć potencjalne zainteresowanie w przyszłości.
  3. Wyjątkowość: czy nasze dane duplikują się z innymi istniejącymi zbiorami danych?
  4. Możliwość replikacji: czy można takie dane ponownie zebrać? (wysokie koszty, jednorazowe wydarzenie
  5. Możliwość wykorzystania: jakość i używalność danych (czy formaty są od strony technicznej dobrze dobrane? czy kwestie praw własności intelektualnej są wyjaśnione?)
  6. Kwestie ekonomiczne: koszty zarządzania danymi i przechowywania ich są uzasadnione w świetle potencjalnych przyszłych zastosowań.
  7. Pełna dokumentacja: dokumentacja jest poprawna i kompletna

Dane badawcze nie muszą być idealne, mogą np. zawierać luki w pomiarach wynikające z czynników zewnętrznych. Ważne jest, aby zaznaczyć takie braki i opisać z czego wynikały.
Dane badawcze, których nie zamierzamy przechowywać należy dokumentować: Co, dlaczego i kiedy zostało wyrzucone.

II. Z udostępnianiem danych badawczych wiążą się zagadnienia dotyczące możliwości ujawnienia tożsamości badanych. Sposobem na radzenie sobie z tą kwestią jest usunięcie danych wrażliwych umożliwiających identyfikację badanych osób.

  1. Anonimizacja – polega na przekształceniu danych osobowych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do określonej lub możliwej do zidentyfikowania osoby. Należy jednak pamiętać, że nie polega ona wyłącznie na usunięciu imienia i nazwiska osoby badanej, jej miejsca zamieszkania czy nazwy zakładu pracy. Rozwiązaniem może być tu udostępnienie danych w modelu dostępu ograniczonego jedynie do celów naukowych, uzależnionego od akceptacji data access committee lub realizowanego w określonym miejscu. Jeśli występujących trudności nie daje się w żaden sposób usunąć, może być konieczne zamknięcie dostępu do danych. Rozwiązanie to stanowi jednak ostateczność. Nawet jeśli decydujemy się nie udostępniać samych danych, możemy udostępnić ich metadane. Najłatwiej to osiągnąć umieszczając dane w repozytorium, które umożliwia zamknięcie dostępu do nich dla zewnętrznych użytkowników przy jednoczesnej publicznej prezentacji metadanych. Dzięki temu użytkownicy serwisu mogą odnaleźć opis badania i zapoznać się z jego treścią, a w konsekwencji – skontaktować się z odpowiednią osobą i starać się uzyskać dostęp do danych na specjalnych zasadach.
  2. Pseudonimizacja – to przetworzenie danych tak, by nie można ich było przypisać osobie, której te dane dotyczą, bez użycia dodatkowych informacji. Technika ta utrudnia identyfikację, natomiast umożliwia przypisanie różnych czynności tej samej osobie (bez znajomości jej danych osobowych) oraz łączenie rożnych zbiorów danych między sobą. Pseudonimizacja skutecznie podwyższa bezpieczeństwo przetwarzania danych, które podlegają pełnej ochronie.

     Podstawową cechą odróżniającą pseudonimizację i anonimizację jest odwracalność. Anonimizacja jest procesem nieodwracalnym, pseudonimizacja zaś jest odwracalna.

III. Dobór formatów plików zależy od decyzji autora. Dane badawcze powinny zostać opublikowane w ogólnodostępnym formacie, który nie wymaga komercyjnego oprogramowania i wykorzystuje standardowe kodowanie. Preferowane są formaty bez kompresji, otwarte, z dostępną dokumentacją.  Ponadto zaleca się użycie takich, które funkcjonują w naszej dyscyplinie aby użytkownicy po pobraniu zbioru danych nie byli zmuszeni do ich dodatkowej konwersji. 

Formaty plików:

  • Text, Documentation, Scripts: XML, PDF/A, HTML, Plain Text.
  • Still Image: TIFF, JPEG 2000, PNG, JPEG/JFIF, DNG (digital negative), BMP, GIF.
  • Geospatial: Shapefile (SHP, DBF, SHX), GeoTIFF, NetCDF.
  • Graphic Image:
  • raster formats: TIFF, JPEG2000, PNG, JPEG/JFIF, DNG, BMP, GIF.
  • vector formats: Scalable vector graphics, AutoCAD Drawing Interchange Format, Encapsulated Postscripts,
  • Shape files.
  • cartographic: Most complete data, GeoTIFF, GeoPDF, GeoJPEG2000, Shapefile.
  • Audio: WAVE, AIFF, MP3, MXF, FLAC.
  • Video: MOV, MPEG-4, AVI, MXF.
  • Database: XML, CSV, TAB

Dane w tabelach lepiej zapisywać w formacie .csv niż .xls; można też zdeponować tę samą tabelę w obydwu formatach.

Pliki przeznaczone do zdeponowania można pogrupować. Rozmiar pojedynczego pliku w zbiorze nie może przekroczyć 8 GB.

IV. Nazewnictwo plików powinno być przemyślane, aby ułatwić użytkownikom korzystanie z danych. Na tym etapie pracy warto zadać sobie pytania: Jakie nazwy plików i jaka ich struktura byłyby dla mnie najbardziej użyteczne, gdybym sam chciał ponownie je wykorzystać? Co powinny zawierać nazwy, aby bezproblemowo można było odnaleźć konkretny zestaw danych? Czy za 3 lata będziemy wiedzieli, co jest w tych plikach?

Podstawowe zasady organizacji plików:

  • organizacja badań musi być spójna z ich nazewnictwem
  • kontrola wersji plików
  • struktura katalogów, konwencje nazewnictwa plików
  • struktura plików – użyj tej samej struktury do tworzenia kopii zapasowych
  • zachowanie spójności – używanie tego samego formatu dla wszystkich plików w projekcie, w tym zestawów danych
  • powinno używać się tylko cyfr, liter i znaków podkreślenia
  • nie powinno używać się znaków specjalnych, myślników, spacji, znaków stop
  • daty powinny mieć standardowy format np. DDMMMMYYYY
  • numeracja sekwencyjna powinna pozwalać na wzrost i zawierać wiodące zera, np jeżeli jest to 100 plików
  • nazwy powinny zaczynać się od 001 do 100

V. Kontrola wersji plików (wersjonowanie) jest sposobem na śledzenie zmian w procesie lub w zestawach danych. Szczególnie ważne jest zapisywanie wersji jeśli w projekcie pracuje więcej niż jedna osoba. Zaleca się zaznaczanie każdej zmiany, używanie konwencji w nazewnictwie plików oraz stosowanie oprogramowania do kontroli wersji (SVN, Git).

Przy zapisie danych zaleca się co najmniej 2 backupy, w tym jeden off-site

VI. Dane powinny zostać opisane w taki sposób, aby można je było zindeksować, wyszukać i ponownie wykorzystać. W tym celu należy opracować metadane zbiorów badawczych, które opisują ich zawartość, pochodzenie oraz stosowane metody badawcze.

Dodatkowe informacje:

Selekcja i przygotowanie danych badawczych do udostępnienia - poradnik ICM

Nasze serwisy używają informacji zapisanych w plikach cookies. Korzystając z serwisu wyrażasz zgodę na używanie plików cookies zgodnie z aktualnymi ustawieniami przeglądarki, które możesz zmienić w dowolnej chwili. Więcej informacji odnośnie plików cookies.
Obowiązek informacyjny wynikający z Ustawy z dnia 16 listopada 2012 r. o zmianie ustawy – Prawo telekomunikacyjne oraz niektórych innych ustaw.

Akceptuję