Ponad 100 tys. skategoryzowanych adresów URL i 4 mln identyfikatorów tweetów można wykorzystać bezpłatnie do celów badawczych. Są dostępne w nowo powstałym Archiwum Społecznym Polskiego Webu.
Twórcą Archiwum Społecznym Polskiego Webu (ASPW) jest programista z Centrum Kompetencji Cyfrowych UW i doktorant IBL PAN Marcin Wilkowski. Zbiory archiwum dostępne są na stronie https://aspw.pl/ na wolnej licencji i mogą być wykorzystane jako otwarte dane badawcze.
"Zależy mi na tym, żeby ułatwić inicjowanie badań z wykorzystaniem zasobów WWW. Pierwszym problemem, na jaki natrafia osoba chcąca przygotować analizy internetowe, jest dostępność danych historycznych. (...) Ponieważ gromadzone adresy stron pochodzą z korpusu twitterowego, możemy oczekiwać, że lepiej reprezentują najważniejsze społecznie zasoby polskiego Webu niż adresy gromadzone losowo" - powiedział cytowany w komunikacie Marcin Wilkowski. Dodał, że wykorzystanie mediów społecznościowych w budowie zasobu archiwalnego "jest podejściem od kilku lat mocno obecne w literaturze naukowej dotyczącej archiwistyki Webu."
W zbiorze znajduje się ponad 100 tys. skategoryzowanych adresów URL i 4 mln identyfikatorów tweetów. Można wykorzystać bezpłatnie do celów badawczych. Od listopada 2020 archiwum indeksuje strony internetowe linkowane we wpisach polskich użytkowników Twittera i udostępnia informacje na temat ich obecności w internecie.
Jak czytamy w komunikacie, ASPW respektuje przepisy prawa autorskiego i regulamin platformy Twitter, dlatego nie gromadzi i nie udostępnia treści indeksowanych stron. Wyjaśniono, że udostępniane są jedynie metadane stron i identyfikatory tweetów. Identyfikatory te można wykorzystać do pobrania treści tweetów z wykorzystaniem odpowiednich narzędzi - informacje na ten temat znajduje się na stronie archiwum.
"ASPW ułatwia (...) badania z wykorzystaniem zasobów webowych, proponując otwartą alternatywę dla komercyjnych systemów indeksujących strony WWW i media społecznościowe" - czytamy w komunikacie.
Dane ASPW wykorzystać można w badaniach Webu, na przykład stabilności zasobów polskiej domeny, ale też do badań społecznych czy językowych, w których zasoby internetowe są źródłami podlegającymi analizie. Podano, że w planach rozwoju ASPW jest udostępnianie zbiorów danych publikowanych w mediach społecznościowych przez oficjalne konta instytucji państwowych oraz testowy projekt indeksowania i archiwizacji linków z przypisów publikacji naukowych z polskich czasopism open access.(PAP)
Autor: Szymon Zdziebłowski
szz/ mhr/