Przejdź do treści

Jak udostępniać otwarte dane publiczne?

Publikowanie otwartych danych to proces ich udostępniania wszystkim zainteresowanym, najczęściej za pomocą dedykowanego oprogramowania, zwanego repozytoriami danych. W przypadku jednostek samorządu terytorialnego „otwieranie danych”, poza zwiększeniem transparentności działań urzędów miast i gmin, przynieść może szereg korzyści, takich jak większa partycypacja i poczucie współodpowiedzialności mieszkańców za rozwój swoich społeczności czy wspieranie rozwoju gospodarczego. Warto również wspomnieć, że w Polsce od 2021 roku istnieje ustawowy obowiązek publikowania danych dla sektora publicznego. Jednak aby cały proces udostępniania tych danych nie służył jedynie zadośćuczynieniu literze prawa, ale miał szansę przynieść wcześniej wspomniane korzyści, musi być przeprowadzony w odpowieni sposób.

Publikowanie otwartych danych jest kluczowym narzędziem w kierunku bardziej przejrzystego, efektywnego i zaangażowanego społeczeństwa. Dzięki otwartym danym istnieje możliwość wykorzystania potencjału technologicznego i społecznego do rozwiązywania wielu problemów, jakie stoją przed naszymi społeczeństwami. Istnieje jednak cały szereg czynników, które warto wziąć pod uwagę decydując się na rozpoczęcie udostępniania danych publicznych. Poniżej zostały one pokrótce omówione, tak aby przybliżyć to zagadnienie wszystkim zainteresowanym osobom.

Plan zarządzania

Plan zarządzania danymi jest podstawowym narzędziem w kontekście udostępniania otwartych danych publicznych. Stanowi on strategię i „mapę drogową”, która określa cele, wytyczne i procedury związane z gromadzeniem, przechowywaniem, udostępnianiem i aktualizacją danych w sposób otwarty i przejrzysty. Wytycza również cele publikacji danych oraz identyfikuje dane, które mają zostać udostępnione. Powinien definiować odpowiedzialności dla poszczególnych komórek urzędów miast i gmin oraz podmiotów zewnętrznych, gdyż każda z tych jednostek może być potencjalnym źródłem danych otwartych. Określenie odpowiednich komórek i podmiotów odpowiedzialnych za zbieranie, weryfikację i udostępnianie danych jest kluczowym elementem w zapewnieniu skutecznego i ciągłego procesu publikowania otwartych danych. Jasno określone odpowiedzialności pozwalają bowiem na lepszą współpracę między różnymi jednostkami, uniknięcie duplikacji pracy oraz zapewnienie, że dane są publikowane w sposób zgodny z wytycznymi i standardami.

Plan zarządzania danymi zapewnia odpowiednią jakość danych, dzięki strategiom dotyczącym zbierania, weryfikacji i utrzymania danych. To z kolei sprawia, że publikowane dane są bardziej wiarygodne i użyteczne dla użytkowników. W planie określane są również odpowiednie formaty danych oraz technologie, które ułatwiają dostęp i przetwarzanie danych przez użytkowników końcowych. Pomaga to w efektywnym korzystaniu z danych i łatwiejszym zrozumieniu zawartych w nich informacji. Kolejnym ważnym aspektem jest określenie ról i odpowiedzialności w procesie publikowania danych. Plan precyzuje, kto jest odpowiedzialny za zbieranie, przetwarzanie, aktualizację i ostateczne upublicznianie danych.

Kolejnym elementem, który warto uwzględnić podczas publikowania otwartych danych to aktywizacja i angażowanie społeczności. Plan zarządzania danymi może zawierać strategie komunikacji i promocji danych, które zachęcą społeczność do aktywnego korzystania z danych.

Podsumowując, plan zarządzania danymi jest niezwykle ważnym narzędziem w procesie publikowania danych otwartych. Pomaga on w organizacji i koordynacji działań związanych z zarządzaniem danymi, zapewnieniu jakości informacji i zwiększeniu zaangażowania społeczności w korzystanie z dostępnych danych. Należy pamiętać, że publikowanie otwartych danych to proces ciągły, a plan zarządzania danymi jest narzędziem do monitorowania postępów i doskonalenia jakości danych na przestrzeni czasu na każdym z etapów.

Spójność

Spójność danych jest istotnym aspektem w kontekście publikowania otwartych danych publicznych. Oznacza ona, że dane są zgodne, jednoznaczne i nie są wewnętrznie sprzeczne. Spójne dane pozwalają na pełniejsze zrozumienie rzeczywistości i bardziej precyzyjne analizy. W kontekście otwartych danych urzędów miast i gmin, spójność jest szczególnie ważna, ponieważ różne ich komórki oraz podmioty zewnętrzne mogą zbierać i udostępniać dane na różne sposoby. Może to prowadzić do występowania niejednolitych definicji, formatów, a nawet sprzecznych informacji.

W celu zapewnienia spójności danych publicznych kluczowym krokiem jest ustalenie jednolitych definicji i terminologii, które będą stosowane przez wszystkie jednostki i podmioty zaangażowane w proces publikowania danych. Wykorzystanie spójnych definicji jest niezwykle ważne, aby uniknąć niejednoznaczności i błędów interpretacyjnych. Na przykład, jeśli różne komórki urzędów używają różnych terminów dla tych samych kategorii danych, może to wprowadzić zamieszanie i utrudnić zrozumienie informacji. Dlatego ważne jest, aby przed rozpoczęciem procesu publikacji danych jednoznacznie zdefiniować wszelkie pojęcia, kategorie oraz terminy, które zostaną użyte w zestawach danych.

Wspólnie ustalone standardy dotyczące formatów danych, procedur zbierania i udostępniania danych są kluczowe dla zapewnienia spójności danych otwartych. Gdy różne komórki urzędów lub podmioty zewnętrzne używają różnych formatów, może to prowadzić do problemów z integracją danych i porównywaniem informacji. Ustanowienie jednolitych standardów umożliwia łatwiejszą wymianę danych między różnymi źródłami i ujednolicenie procesów publikacji. Wspólne standardy pomagają również w zachowaniu spójności danych w czasie, gdyż umożliwiają aktualizację danych w sposób zgodny z ustalonymi wytycznymi.

Integralność

Integralność danych jest kolejnym kluczowym aspektem w kontekście zarządzania otwartymi danymi publicznymi. Oznacza ona, że dane pozostają nienaruszone, niezmienione i nieprzekłamane w trakcie procesu ich transmisji i przetwarzania. W przypadku publikowania otwartych danych, które są dostępne dla szerokiej społeczności, konieczne jest zabezpieczenie ich przed ewentualnymi zmianami w drodze do końcowego odbiorcy.

Jednym z głównych narzędzi wykorzystywanych do weryfikacji integralności danych są sygnatury tzw. funkcji skrótu (ang. hash functions). Funkcje te generują unikalne „podpisy” dla konkretnego zbioru danych na podstawie zawartości całego pliku, który zawiera dany zbiór danych. Nawet najmniejsza zmiana w danych spowoduje wygenerowanie zupełnie innej sygnatury. Dzięki temu końcowy użytkownik może porównać sygnaturę otrzymaną z oryginalnego źródła danych z sygnaturą obliczoną na podstawie otrzymanych danych. Jeśli sygnatury są identyczne, to oznacza, że dane nie zostały zmienione w trakcie transmisji.

Wersjonowanie

Wersjonowanie danych otwartych to kolejny ważny aspekt zarządzania tymi danymi, szczególnie w kontekście ich ciągłego publikowania i aktualizacji. Wersjonowanie polega na oznaczaniu danych w rytm ich zmian jako różne wersje, aby umożliwić śledzenie modyfikacji, jakie zostały wprowadzone w poszczególnych iteracjach. Jest to ważne, ponieważ dane publiczne mogą podlegać ewolucji w czasie, na przykład w wyniku uaktualnień, korekt czy dodania nowych informacji. Główne zalety wersjonowania danych otwartych to zapewnienie przejrzystości i historii zmian, wspieranie badań i analiz, utrzymanie spójności danych, łatwiejsza identyfikacja błędów oraz zachowanie danych archiwalnych. Wersjonowanie pozwalając na utrwalanie historii zmian w danych, daje użytkownikom możliwość śledzenia postępów, analizy trendów i porównywania różnych wersji, co ułatwia podejmowanie lepiej uzasadnionych decyzji.

Aby wdrożyć efektywne wersjonowanie danych otwartych, warto ustalić jasne zasady, jakie mają być stosowane w oznaczaniu wersji danych oraz jakie zmiany w danej wersji są dokumentowane. Istotne jest również zapewnienie, że użytkownicy danych są świadomi istnienia różnych wersji danych i mają dostęp do informacji o wprowadzonych zmianach. Regularne publikowanie nowych wersji danych w miarę wprowadzania zmian lub uaktualnień oraz dostępność danych archiwalnych są ważnymi elementami wersjonowania danych otwartych.

Metadane

Metadane są kluczowym elementem w kontekście publikowania otwartych danych publicznych. Są to informacje opisujące dane, które pozwalają użytkownikom lepiej zrozumieć ich charakterystykę, źródło, kontekst, format oraz inne ważne aspekty. Metadane są jak „dane o danych” – dostarczają informacji, które pomagają użytkownikom ocenić wartość, jakość i użyteczność zbiorów danych.

Ważne cechy metadanych to:

  1. Opis danych: Metadane zawierają opis danych, które ułatwiają zrozumienie ich treści, pochodzenia i znaczenia. Mogą to być np. nazwy, opisy, tagi, klasyfikacje czy słowa kluczowe, które pomagają zrozumieć co poszczególne dane przedstawiają i opisują.
  2. Źródło danych: Informacje o źródle danych, czyli instytucji, organizacji lub podmiocie odpowiedzialnym za ich udostępnienie, pozwalają na weryfikację wiarygodności i odpowiedzialności za dane.
  3. Format i struktura: Metadane opisują format i strukturę danych, co pomaga użytkownikom w określeniu, jakie narzędzia mogą być potrzebne do przetwarzania i analizy danych.
  4. Licencje i ograniczenia: Informacje o licencjach oraz ewentualnych ograniczeniach w udostępnianiu i wykorzystywaniu danych są ważne dla zrozumienia prawnych aspektów korzystania z danych.
  5. Częstotliwość aktualizacji: Wskazanie, jak często dane są aktualizowane, pozwala użytkownikom na śledzenie dynamiki i aktualności informacji.
  6. Metody pozyskiwania danych: Opis metod i procesów pozyskiwania danych pomaga zrozumieć, w jaki sposób dane zostały utworzone, co ma znaczenie przy analizie jakości i wiarygodności informacji.
  7. Kontakt: Podanie informacji kontaktowych do odpowiedzialnej jednostki czy osoby ułatwia użytkownikom zgłaszanie pytań, uwag lub sugestii dotyczących danych.

Interoperacyjność / Formaty danych

Interoperacyjność to kluczowy aspekt w publikowaniu otwartych danych publicznych. Interoperacyjność oznacza zdolność danych do bycia przytwarzanymi w ramach różnych systemamów, aplikacji i platform bez utraty informacji. Zapewnienie interoperacyjności ułatwia korzystanie z danych przez różne podmioty, a także tworzenie nowych aplikacji i usług opartych na danych.

Różne formaty danych mogą mieć istotny wpływ na stopień interoperacyjności. Format danych to sposób organizacji i strukturyzacji informacji. Publikowanie danych w różnych formatach może utrudnić wymianę i analizę danych przez użytkowników. Dlatego najlepiej, gdy dane są publikowane w formatach powszechnie akceptowalnych przez różne programy i narzędzia. Przykłady takich powszechnie akceptowalnych formatów to CSV (ang. Comma Separated Values), JSON (ang. JavaScript Object Notation) czy XML (ang. Extensible Markup Language).

Dodatkowo, korzystanie z formatów o upublicznionej specyfikacji i niezastrzeżonych licencjach (ang. non-proprietary licence) jest ważne dla zachowania dużego stropnia interoperacyjności. Otwarte, powszechnie dostępne specyfikacje formatów danych pozwalają na pełniejsze zrozumienie struktury danych przez różne systemy. To z kolei sprzyja lepszej integracji i wymianie danych między różnymi platformami. Unikanie formatów o zastrzeżonych licencjach, które mogą mieć ograniczenia dostępu lub wymagać specyficznego oprogramowania, jest kluczowe w kontekście otwartości danych. Formaty o zastrzeżonych licencjach mogą ograniczać możliwość korzystania z danych przez społeczność, uniemożliwiając tworzenie innowacyjnych rozwiązań lub analizę danych przez niezależnych badaczy. Dlatego wybierając format danych do publikacji, warto zwrócić uwagę na jego otwartość i dostępność dla szerokiego grona użytkowników.

Wspieranie interoperacyjności danych jest niezwykle ważne dla zapewnienia skutecznego wykorzystania danych publicznych. Wybór odpowiednich formatów danych oraz dbanie o otwartość i dostępność specyfikacji formatów to kluczowe kroki w kierunku publikowania danych, które są użyteczne i dostępne dla różnych odbiorców. Pozwala to na pełniejsze korzystanie z potencjału danych i przyczynia się do zwiększenia innowacyjności oraz pozytywnego wpływu na społeczeństwo.

Licencjonowanie

Dostępność danych, rozumiana jako prawnie legalna możliwość wykorzystywania udostępnianych danych, w kontekście danych pochodzących z sektora publicznego zwykle schodzi na plan dalszy, gdyż większość danych tego typu udostępniania jest bez żadnych ograniczeń. Warto jednak wspomnieć, że ustawodawca dopuścił możliwość pobierania opłat za dane, które zostały przygotowane na zamówienie podmiotu komercyjnego. W takich przypadkach warto zatroszczyć się o wybór odpowieniej licencji w ramach której dane zostaną udostępnione, tak aby w najlepszy sposób chronić szeroko rozumiany interes urzędu miasta lub gminy.

Przykłady popularnych licencji danych otwartych to Creative Commons, Open Data Commons oraz Public Domain Dedication and License. Te licencje zapewniają różne stopnie otwartości i elastyczności w korzystaniu z danych. Na przykład, niektóre licencje mogą wymagać podania źródła danych lub wskazania zmian w danych, podczas gdy inne mogą pozwalać na swobodne wykorzystanie danych bez żadnych ograniczeń.

Ważnym aspektem dostępności danych jest również transparentność informacji o licencji. Publikujący dane powinien jasno określić zastosowaną licencję oraz informować o zasadach i ograniczeniach korzystania z danych. W miarę jak dane są udostępniane publicznie, użytkownicy powinni łatwo znaleźć informacje na temat zasad prawnych związanych z danymi.

Dostępność

Dostępność danych otwartych rozumiana jako ciągłość usługi udostępniania jest niezwykle istotnym aspektem, zwłaszcza dla odbiorców, którzy polegają na tych danych w swojej pracy, badaniach lub projektach. Standardowo wystarczające udostępnianie usługi repozytorium danych otwartych z własnych infrastruktur informatycznych urzędów miast i gmin, zapewniając jedynie regularne kopie bezpieczeństwa na wypadek awarii. Natomiast w przypadku potrzeby zapewnienia dostępności na najwyższym poziomie warto rozważyć ulokowanie repozytorium danych otwartych w chmurze, gdyż chmury obliczeniowe oferują skalowalne i elastyczne środowiska, które może łatwo dostosować do wzrastających wymagań ruchu i użytkowników, minimalizując ryzyko przestojów i zapewniając ciągłość usługi, nawet w przypadku awarii pojedyńczych węzłów obliczeniowych.

Identyfikowalność

Identyfikowalność zbiorów danych otwartych to kluczowy element, który przyczynia się do zwiększenia użyteczności, dostępności i zaufania do tych danych. Możliwość jednoznacznego i trwałego zidentyfikowania konkretnego zbioru danych ma wiele korzyści dla społeczności korzystających z tych informacji.

Wprowadzenie identyfikatorów DOI (ang. Digital Object Identifier) dla zbiorów danych otwartych jest z pewnością korzystne, szczególnie w przypadku danych naukowych i badawczych, które są używane w publikacjach naukowych. DOI zapewnia unikalny i stały identyfikator dla danego zbioru danych, co ułatwia jego odnalezienie i cytowanie w publikacjach naukowych oraz innych materiałach badawczych.

Jednak w przypadku danych z sektora publicznego, które są powszechnie dostępne dla szerokiej społeczności, wydaje się, że URL (ang. Uniform Resource Locator), czyli kolokwialnie mówiąc „adres internetowy” służący jako URI (ang. Uniform Resource Identifier) może okazać się całkowicie wystarczający, o ile zapewniona jest niezmienność w czasie struktury adresów URL. Odpowiednio skonstruowany i zarządzany URL umożliwia jednoznaczne zidentyfikowanie konkretnego zbioru danych i łatwe odnalezienie go w Internecie.

Podsumowanie

Podsumowując, upublicznianie danych w sposób skuteczny i użyteczny wymaga uwzględnienia wielu czynników. Zadanie to może stać się znacznie prostsze i bardziej efektywne poprzez skorzystanie z dedykowanego repozytorium danych otwartych. Takie narzędzie zatroszczy się o kluczowe aspekty, takie jak integralność danych, wersjonowanie, metadane i identyfikowalność.

Dedykowane repozytorium pozwoli na bezpieczne i niezawodne przechowywanie danych, umożliwiając jednocześnie dostęp do wcześniejszych wersji i śledzenie historii zmian. Wprowadzenie odpowiednich metadanych ułatwi zrozumienie danych, zapewniając przejrzystość i wiarygodność informacji. Identyfikowalność danych, czy to za pomocą DOI czy stabilnych URL, ułatwi odnajdywanie poszczególnych zbiorów danych i powoływanie się na nie, przyczyniając się do większej wiarygodności badań i upowszechnienia poszczególnych zbiorów.

Korzystając z dedykowanego repozytorium, organizacje mogą skupić się na bardziej merytorycznych zagadnieniach, takich jak spójność danych, zapewnienie interoperacyjności oraz odpowiednie licencjonowanie. Spójność danych pozwoli uniknąć nieścisłości i błędów w informacjach, co wpłynie na jakość analiz i badań. Interoperacyjność ułatwi wymianę danych i integrację z różnymi systemami, a odpowiednie licencjonowanie zapewni prawnie legalny dostęp do danych i umożliwi ich szerokie wykorzystanie.

Jak widać, dedykowane repozytorium danych otwartych jest kluczowym narzędziem ułatwiającym skuteczne i użyteczne publikowanie danych dla sektora publicznego.

Chciałbyś wdrożyć repozytorium otwartych danych publicznych w Twojej jednostce samorządu terytorialnego? Koniecznie zapoznaj się z naszą ofertą!

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *