Po co nam Wikidane?

Kilkanaście dni temu swoje piąte urodziny obchodził projekt Wikidata, po polsku nazywany Wikidanymi. To obecnie jeden z trzech najważniejszych projektów Wikimediów, obok będącej oczywiście wciąż naszą wizytówką i dumą Wikipedii oraz Wikimedia Commons, największego na świecie repozytorium multimediów na wolnych licencjach.

Nawet jeśli nie wszyscy umiemy edytować Wikipedię, to chyba każdy rozumie jej ideę. Również pomysł, który legł u podstaw Wikimedia Commons, jest bardzo prosty – chcemy zebrać w jednym miejscu jak najwięcej multimediów, mających bardzo szeroko pojętą wartość edukacyjną, a do tego opublikowanych na wolnych licencjach lub będących w domenie publicznej.

A Wikidane? Wciąż wielu wikipedystów, nie mówiąc już o osobach spoza naszego ruchu, ma kłopot z wyjaśnieniem sobie i innym, po co nam właściwie ten projekt i dlaczego jest taki ważny. Dzisiaj postaram się podać kilka jego najważniejszych zastosowań. Ale najpierw kilka słów ekspresowego wyjaśnienia, co to w ogóle są Wikidane.

Wikidane, czyli co?

Wikidane mają dużo więcej wspólnego z Wikipedią, niż widać na pierwszy rzut oka. Jeden i drugi projekt gromadzi informacje, czyli inaczej dane. Jeden i drugi dąży do najważniejszego celu Wikimediów, do naszego wspólnego marzenia: aby każdy człowiek na świecie miał swobodny dostęp do sumy ludzkiej wiedzy. Różnią się głównie sposobem, w jaki przechowują i udostępniają tę wiedzę.

Wikipedia gromadzi wiedzę w postaci tekstów, zwanych hasłami lub artykułami. Teksty te są napisane w konkretnych językach, opierają się na ich strukturach gramatycznych, siatkach pojęciowych itd. Dlatego Wikipedia musi mieć różne wersje językowe (obecnie ma ich ok. 300) – bo w każdym języku ten sam lub podobny zestaw informacji musi zostać zapisany na nowo.

Wikidane rozbijają wiedzę na małe kawałeczki, zwane deklaracjami. Każda deklaracja składa się z trzech części: podmiotu (zwanego też elementem), właściwości i wartości. Najłatwiej to wyjaśnić na przykładzie:

Pierwsze kilka słów artykułu o Czesławie Miłoszu w polskojęzycznej Wikipedii wygląda tak:
Czesław Miłosz (ur. 30 czerwca 1911 w Szetejniach, zm. 14 sierpnia 2004 w Krakowie)

W Wikidanych dokładnie ta sama treść została rozbita na sześć deklaracji. Ich podmiotem w każdym przypadku jest Czesław Miłosz (więc nie będę za każdym razem tego powtarzał), zaś właściwości i wartości wyglądają tak:

imię: Czesław
nazwisko: Miłosz
data urodzenia: 30 czerwca 1911
miejsce urodzenia: Szetejnie
data śmierci: 14 sierpnia 2004
miejsce śmierci: Kraków

Oczywiście artykuł w Wikipedii jest dużo dłuższy, ale i Wikidane mają znacznie więcej deklaracji na temat wielkiego poety.

Być może ktoś zapyta: ale po co robić to podwójnie? Co za różnica? Oto zatem najważniejsze powody, po co nam Wikidane:

1. Bo chcemy, żeby było jak w Star Treku!

Lubicie filmy i seriale z uniwersum Star Trek? Ja uwielbiam! Ale dzisiaj zostawmy na boku kapitanów Kirka i Picarda. Przypomnijmy sobie za to, co robią bohaterowie, gdy chcą się dowiedzieć czegoś, co my dziś sprawdzilibyśmy w Wikipedii. Otóż po prostu pytają swój pokładowy komputer, a on wszystko wie! Choć Star Trek rozgrywa się od XXII do XXIV wieku, już dzisiaj jesteśmy naprawdę bardzo blisko akurat tej technologii. Mamy komputery, które umieją rozpoznawać i generować głos, więc są w stanie z nami rozmawiać.  Głównym problemem jest to, że duża część naszej wiedzy, zwłaszcza z nauk humanistycznych czy społecznych, jest zapisana w sposób, którego maszyny nie umieją same jednoznacznie zinterpretować. Wikipedia jest bardzo przyjazna ludziom. Wikidane idą krok dalej – starają się być wygodne w użyciu zarówno dla ludzkich mózgów, jak i programów komputerowych.

Jak to robią? Mówiąc najprościej: stosują podwójny zapis. Każdy kawałek informacji, który sam w sobie nie ma wartości liczbowej (tak jak ma ją ilość czegoś, powierzchnia albo nawet data i godzina), jest zestawem kodów złożonych z jednej litery oraz kilku lub kilkunastu cyfr.

Znów posłużmy się przykładem:

„Czesław Miłosz zmarł w Krakowie” – w Wikidanych ta informacja przyjmie następującą formę: wartość P20 (miejsce śmierci) dla elementu Q49570 (Czesław Miłosz) to Q31847 (Kraków). I absolutnie za każdym razem, gdy w Wikidanych mowa o miejscu śmierci, jest ono oznaczane jako P20, Czesław Miłosz to zawsze Q49570, a Kraków to niezmiennie Q31847. W ten sposób komputery są w stanie przedrzeć się przez całą bazę wiedzy i jej strukturyzację w sposób jednoznaczny i zrozumiały dla siebie.

Ale co z ludźmi? Dla nas Kraków to Kraków, a nie jakiś dziwny kod! Otóż każdy element oprócz kodu ma też swoje etykiety, czyli przypisane nazwy słowne. Co więcej, etykiety tworzy się osobno dla każdego języka. Tym samym niezależnie od tego, czy ktoś wpisze w wyszukiwarce Wikidanych Kraków, Краков czy クラクフ, zawsze trafi do tego samego zbioru danych, oznaczonego jako Q31847.

2. Bo chcemy wyciągać z wiedzy ludzkości jeszcze więcej korzyści.

Oczywiście w udostępnianiu wiedzy komputerom nie chodzi tylko o gonienie za science-fiction. Jak wiemy, komputery, a zwłaszcza ich sieci, mają dużo większą moc obliczeniową niż nawet najtęższe ludzkie mózgi. Potrafią dużo szybciej analizować ogromne masy danych i znajdować odpowiedzi na zadane im pytania. Jeżeli jesteśmy w stanie zaprząc je do pracy w rozwiązywaniu naszych problemów (małych i dużych), możemy znacząco przyspieszyć badania naukowe, a jednocześnie ułatwić sobie codzienne życie.

Temu służy m.in. mechanizm Wikidata Query Service, pozwalający bardzo szybko (choć wciąż jeszcze w sposób za mało przyjazny użytkownikowi bez wiedzy informatycznej, ale pracujemy nad tym!) przetwarzać dane z naszej bazy. Przykładowo: tutaj (po naciśnięciu ikonki „play” po lewej stronie i po krótkiej chwili cierpliwości) znajdziemy odpowiedź na pytanie, w ilu krajach jeździ się po prawej, a w ilu po lewej stronie drogi. Tutaj zobaczymy, jakie nowotwory najczęściej zabijały w poszczególnych latach osoby opisane w Wikidanych (oczywiście dane są wciąż niepełne, zwłaszcza dla dawniejszych lat, ale dają jakiś obraz).  Z kolei tutaj dowiemy się, jakie jest największe miasto w każdym państwie, ilu liczy mieszkańców i jakie są jego współrzędne geograficzne. Wygenerowanie każdego z tych wyników zajmuje kilka sekund. A gdy nauczymy się technicznego sposobu zadawania Wikidanym własnych pytań, możemy do woli z nich korzystać w swoich badaniach, praktycznych potrzebach lub dla rozrywki.

3. Bo wiedzy przybywa szybciej niż wikipedystów

Smutna prawda, ale prawda. W miarę rozwoju Wikimediów oczekiwania wobec Wikipedii i jej projektów siostrzanych są coraz większe, a na wikipedystach spoczywa coraz większa odpowiedzialność. To niezwykle przyjemna (będę zawsze tak twierdził!), ale jednak dość żmudna, a do tego zupełnie wolontariacka praca. W dodatku są języki, gdzie z różnych powodów liczba edytorów jest zupełnie niewspółmierna do liczby potencjalnych czytelników Wikipedii i ich potrzeb.

Oczywiście komputery jeszcze długo nie będą umiały pisać skomplikowanych haseł w Wikipedii na takim poziomie, jak sprawni wikipedyści. Dotyczy to zwłaszcza trudnych gramatycznie języków, jak chociażby polszczyzna. Ale jeśli mamy do wyboru: nie mieć na dany temat nic lub mieć prosty językowo lub nawet złożony z suchych danych artykuł stworzony przez komputer, to czyż druga opcja nie jest mimo wszystko lepszą?

4. Bo po co robić to samo kilka razy?

Jak wspomniałem na wstępie, pisanie Wikipedii to w jakimś stopniu sztuka ponownego mówienia tego samego, co zostało już powiedziane w innym języku. Wielu znakomitych wikipedystów to w pierwszej kolejności zdolni tłumacze. I nie ma w tym nic złego! Ale istnieje pokaźna kategoria informacji, które można z powodzeniem aktualizować automatycznie, dzięki czemu wystarczy wprowadzić te dane raz i mogą być wykorzystane jednocześnie we wszystkich wersjach językowych Wikipedii, bez konieczności przepisywania ich osobno na potrzeby każdego języka. Dzięki temu nasz zasób danych jest wspólny, tak jak od wielu lat mamy wspólną bazę multimediów w postaci Wikimedia Commons. Wiedza uzyskana przez jedną osobę w jednym języku, przy odpowiednim zastosowaniu etykiet w innych językach, może z powodzeniem służyć całemu światu.

Weźmy klasyczny przykład, jakim jest spis powszechny. Większość państw regularnie liczy swoich mieszkańców. Wikipedia ma już ponad 16 lat i od jej powstania w większości państw odbyły się co najmniej jeden lub dwa spisy powszechne. Po co aktualizować ludność wszystkich miejscowości (a pomyślmy o wszystkich miejscowościach w USA albo w Chinach!) osobno w każdej wersji Wikipedii, skoro można zrobić to raz, we wspólnej, scentralizowanej bazie.

5. Bo chcemy połączyć tysiące źródeł wiedzy w jedną sieć.

W tej sprawie od razu konkretny przykład. Pan Janusz Gajos, wybitny polski aktor, osobiście niezwykle go cenię. Jeśli chodzi o Wikimedia, na dziś mamy o nim artykuły w 13 wersjach językowych Wikipedii, oprócz tego zebraliśmy też wybór cytatów z niego po polsku i po czesku, no i oczywiście mamy zdjęcia w Wikimedia Commons i dane w Wikidanych. Ale to dopiero początek. Pan Gajos, mający także tytuł profesora ze względu na swoją karierę pedagogiczną, opisany jest także w bardzo wielu różnych bazach, w każdej pod innym oznaczeniem. Podam tylko kilka przykładów: w bazie filmpolski.pl ma numer 11375, na imdb.com nm0301515, a w bazie polskich naukowców nauka-polska.pl jest pod numerem 210935. Tych baz z wpisami na jego temat jest naprawdę dużo, dużo więcej.

A teraz wyobraźmy sobie, że naszym bohaterem nie jest ktoś o relatywnie rzadkim nazwisku jak Janusz Gajos, tylko przysłowiowy Jan Kowalski. Tylko w polskojęzycznej Wikipedii mamy na dziś artykuły o sześciu Janach Kowalskich, nie licząc zespołu rockowego Jan Kowalski. Państwo polskie poradziło sobie z tym, tworząc numery PESEL, ale po pierwsze, stanowią one dane wrażliwe, a po drugie, nie było dotąd jednego, spójnego systemu oznaczania osób w skali międzynarodowej. A przecież nie chodzi tylko o osoby! Tu jest lista wszystkich miejscowości w Polsce, które nazywają się Stara Wieś. Jak je odróżnić bez wchodzenia w szczegóły?

Temu problemowi ma zaradzić system pierwotnie wymyślony przez bibliotekarzy i nazywający się (może trochę groźnie) kontrolą autorytatywną. To nic innego, jak przydzielanie osobom, rzeczom, dziełom, miejscom itd. unikalnych oznaczeń. Historycznie każdy kraj miał własny system kontroli autorytatywnej. Od 1967 czołowe biblioteki świata (obecnie jest wśród nich również polska Biblioteka Narodowa) stopniowo tworzyły, w ramach konsorcjum OCLC, system pozwalający zorientować się np. który numer szwedzkiej kontroli autorytatywnej odpowiada określonemu numerowi w systemie holenderskim itd.

Owocem tych prac są tzw. numery VIAF, czyli międzynarodowe oznaczenia kontroli autorytatywnej. Ale system jest dalece niedoskonały. Najbliższy mi przykład: numer VIAF 302192650 odpowiada nazwisku Jarosław Błaszczak. Ale sęk w tym, że gdy zobaczymy listę publikacji owego Jarosława Błaszczaka, to są tam wymieszane moje wypociny i (zapewne znacznie lepsze) prace badacza, który nazywa się tak samo jak ja, a zajmuje się czymś zupełnie innym. Każdy z nas powinien mieć swój własny numer kontroli autorytatywnej, ale nie jest wcale łatwo ustalić, które dokonania są tak naprawdę czyje.

I to chcą osiągnąć Wikidane. Marzymy, żeby to właśnie numer elementu Wikidanych stał się tym najlepszym, powszechnie akceptowanym na świecie numerem kontroli autorytatywnej. Ale żeby ułatwić błyskawiczne przechodzenie do innych źródeł wiedzy oraz identyfikację osób czy miejsc, na stronie każdego elementu gromadzimy też jak najwięcej odpowiadających mu numerów w rozmaitych bazach i systemach.

 

Oto właśnie pięć powodów, czemu Wikidane uwiodły mnie tak totalnie i czemu poświęcam im ostatnio tak dużo mojego czasu na edytowanie. A to dopiero pierwsze pięć lat!

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *