Web scraping danych z Internetu – czy scraping jest legalny?

Dostęp do informacji stanowi obecnie jeden z najważniejszych czynników decydujących o sukcesie przedsiębiorcy, podobnie jak możliwość podglądania i analizy działań konkurencji. Dlatego dużą popularność zyskała praktyka określana mianem web scrapingu. Na czym polega web scraping danych z Internetu i czy można korzystać z niego legalnie?

Spis treści

Na czym właściwie polega web scraping?

Działania określane jako web scraping polegają na przeglądaniu sieci pod kątem określonych danych, a następnie ich pobraniu i przechowywaniu w ustrukturyzowanej postaci. Firma może z takich informacji korzystać do własnych potrzeb np. wykorzystać w planowaniu kampanii reklamowej. Scraping może być prowadzony ręcznie, ale znacznie większą efektywnością cechuje się pobieranie danych przy użyciu gotowych narzędzi.

W sieci z łatwością można znaleźć oprogramowanie do pobierania danych. Metodę scrapingu wykorzystuje także wiele software’ów popularnych w marketingu internetowym, jak np. Contadu czy Surfer SEO. Pobierają one informacje ze stron zidentyfikowanych jako konkurencyjne dla danego biznesu, ułatwiając w ten sposób stworzenie treści atrakcyjnych nie tylko dla użytkowników, ale również algorytmu wyszukiwarki internetowej. Na podobnej zasadzie działają witryny, które pobierają i na bieżąco aktualizują informacje o cenach biletów lotniczych lub ofertach pracy.

W zależności od celu scrapingu może on dotyczyć sektora eCommerce, wyników wyszukiwania w wyszukiwarkach, mediów społecznościowych, informacji kontaktowych (jak adresy e-mail lub numery telefonów), poszczególnych elementów treści (np. nazwiska autora, meta tagi), czy informacji dotyczących produktu (np. autorzy recenzji, specyfikacja techniczna). Nie brakuje także narzędzi do przeszukiwania stron internetowych pod kątem występowania określonego kodu źródłowego lub fragmentów kodów do narzędzi analitycznych.

Skoro pobrać można praktycznie każdy element contentu, warto przyjrzeć się scrapingowi od strony prawnej. Czy taka praktyka jest legalna?

Zamów pakiet umów IT!

Promocja!

Wybierz opcje Ten produkt ma wiele wariantów. Opcje można wybrać na stronie produktu Quick View

Pakiet wzorów umów dla software house’u/firmy IT [PL/EN]
1199,00 zł – 1999,00 zł (z VAT)
Ostatnia najniższa cena przed zastosowaniem obniżki ceny: 1199,00 zł.

Czy można korzystać z web scrapingu zgodnie z prawem?

Pobieranie danych ze stron jest praktyką, która nie doczekała się regulacji prawnej. Nie ma więc powszechnego zakazu web scrapingu. Scraping danych może jednak budzić zastrzeżenia przede wszystkim na płaszczyźnie ochrony danych osobowych oraz przepisów prawnoautorskich.

Scraping danych a RODO

W świetle przepisów RODO należy ustalić, czy dane pobierane ze strony internetowej są danymi osobowymi. W art. 4 rozporządzenia dane osobowe zdefiniowano jako wszelkie informacje o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej przy użyciu takich kryteriów, jak:

imię i nazwisko;
numer identyfikacyjny;
dane o lokalizacji;
identyfikator internetowy;
czynniki określające tożsamość osoby fizycznej w ujęciu fizjologicznym, genetycznym, psychicznym, ekonomicznym, kulturowym lub społecznym.

Jeżeli firma oferująca np. usługi telekomunikacyjne przeprowadza web scraping na potrzeby działań SEO i zwiększenia widoczności strony w sieci, raczej nie dojdzie tutaj do przetwarzania danych osobowych. Jeśli jednak kampania obejmuje pobieranie numerów telefonów lub adresów e-mail (zbudowanych jako imię.nazwisko@domena), takie informacje należy uznać za podlegające ochronie rozporządzenia jako dane osobowe.

Niezależnie od tego, co użytkownik uczyni z pozyskanymi wskutek scrapingu informacjami, można mówić o ich przetwarzaniu. Wystarczy sam fakt ich przechowywania, a tym bardziej wykorzystanie do działań marketingowych.

Skoro przedsiębiorca przetwarza dane osobowe, musi mieć do tego odpowiednią podstawę wymienioną w art. 6 rozporządzenia RODO. Jako właściwe przesłanki legitymizujące przetwarzanie danych wskazuje się:

zgodę danej osoby na przetwarzanie jej danych osobowych;
występowanie uzasadnionego interesu administratora.

W praktyce trudno sobie wyobrazić, że firma będzie wysyłała zapytania z prośbą o zgodę na przetwarzanie danych tym bardziej, że zaczęła je przetwarzać zanim osoby, których dane dotyczą mogły się o tym dowiedzieć.

Czy w takim razie administrator może wskazać na swój uzasadniony interes?
Taka możliwość istnieje, ale działania administratora nie mogą prowadzić do naruszenia dóbr osobistych osoby, której dane są przetwarzane. Powinny też dążyć do minimalizacji przetwarzania tych danych.

Rozporządzenie RODO nakłada na administratora obowiązki informacyjne względem osób, których dane dotyczą, w tym także konieczność poinformowania ich o przysługujących im uprawnieniach, m.in. prawie do wniesienia sprzeciwu, żądania ograniczenia przetwarzania, czy „bycia zapomnianym”.

Warto pamiętać, że realizacja obowiązków informacyjnych może zostać ograniczona wyłącznie w ściśle określonych przypadkach, o których mowa w art. 14 ust. 5 lit. b RODO, kiedy udzielenie informacji:

jest niemożliwe;
wymaga niewspółmiernie dużego wysiłku.

Scrapowanie danych wrażliwych

W przypadku kiedy administrator przetwarza dane w sposób, który może naruszyć prawa lub wolności osób fizycznych, należy dokonać oceny skutków takiego przetwarzania dla danych osobowych. W szczególności ocena jest wymagana, jeżeli przetwarzane są dane wrażliwe, o których mowa w art. 9 RODO, jak np.:

pochodzenie rasowe lub etniczne;
poglądy polityczne lub przynależność do związków zawodowych;
przekonania religijne lub światopoglądowe;
dane biometryczne lub genetyczne;
informacje dotyczące zdrowia, seksualności lub orientacji seksualnej.

Nielegalne przetwarzanych osobowych może wiązać się z wysokimi karami finansowymi.

Legalność scrapingu w świetle ochrony prawnoautorskiej

Scraping może być wykorzystywany do pobierania z sieci wielu różnych informacji, w tym także danych, które w rozumieniu ustawy o prawie autorskim i prawach pokrewnych mogą zostać uznane za utwór. Zgodnie z art. 1 ustawy o prawie autorskim za utwór uważa się każdy przejaw działalności twórczej o indywidualnym charakterze, ustalony w jakiejkolwiek postaci, niezależnie od wartości, przeznaczenia i sposobu wyrażenia.

Za utwory chronione prawem można uznać np. nazwy produktów, ich autorskie opisy, ale też indywidualną grafikę, czy fragmenty kody tworzące stronę. Z drugiej strony utworem nie będzie specyfikacja techniczna produktu, opinie nabywców towaru lub usługi, czy informacje o cenach.

Aby korzystać zgodnie z prawem z utworów objętych ochroną niezbędne będzie pozyskanie licencji od uprawnionego podmiotu, ewentualnie poruszanie się w wąskich granicach wytyczonych przez prawo cytatu. W przeciwnym razie powstaje ryzyko odpowiedzialności odszkodowawczej.

Web scraping a AI-generated content

Pojęcie utworu w prawie polskim jest bardzo szerokie i obejmuje m.in. prace literackie, graficzne, fragmenty kodu źródłowego, czy utwory muzyczne. Obecnie uważa się jednak, że treści generowane przez coraz bardziej popularne narzędzia AI nie stanowią utworu w rozumieniu prawa. Wynika to z faktu, że u podstaw AI-generated content leży algorytm komputerowy, ale nie ludzka kreatywność.

Web scraping – doradztwo prawne

Choć web scraping nie jest zakazany przez przepisy prawa, należy korzystać z niego rozważnie, z uwzględnieniem ograniczeń wynikających z RODO oraz ochrony prawnoautorskiej. W razie wątpliwości zachęcam Cię do skorzystania ze wsparcia zespołu Kancelarii After Legal. Przeanalizujemy dla Ciebie zakres pobranych danych, a także doradzimy w zakresie modyfikacji tego procesu tak, aby mógł być on stosowany bezpiecznie przez Twoją organizację.

Potrzebujesz wsparcia prawnika IT? Napisz do mnie!

Administratorem danych osobowych jest Linke Kulicki Education sp. z o.o. z siedzibą w Warszawie, ul. Ogrodowa 31 / lok. 54, 00-893 Warszawa, NIP 1182211564, KRS 0000852943 („Administrator”). Pana/Pani dane będą przetwarzane w celach marketingowych oraz w celu przekazywania Pani/Panu informacji handlowych drogą elektroniczną. Pana/Pani dane zostaną usunięte po odwołaniu zgody lub po zakończeniu prowadzenia działań marketingowych lub wysyłki informacji handlowych przez Administratora. Pana/Pani dane będą powierzane podmiotom trzecim na podstawie stosownych umów powierzenia przetwarzania danych osobowych w celu przechowywania danych osobowych na serwerze, skrzynce pocztowej oraz korzystania z usług wsparcia IT. Podstawą przetwarzania danych jest zgoda. W związku z przetwarzaniem danych osobowych ma Pan/Pani prawo do dostępu do swoich danych, sprostowania danych osobowych, usunięcia danych osobowych, wniesienia sprzeciwu, przenoszenia danych, ograniczenia przetwarzania, odwołania zgody, dostępu do informacji jakie dane Administrator przetwarza, złożenia skargi do Prezesa Urzędu Ochrony Danych Osobowych. Przedmiotowe uprawnienia można zrealizować poprzez kontakt z Administratorem na adres e-mail: biuro@linkekulicki.pl. Pani/Pana dane będą przekazywane poza UE oraz nie będą wykorzystywane do zautomatyzowanego podejmowania decyzji ani profilowania. Administrator potrzebuje Pana/Pani Danych Osobowych aby zrealizować wskazany cel przetwarzania, podanie danych osobowych jest dobrowolne jednak w przeciwnym wypadku podane cele nie będą mogły być zrealizowane.

Web scraping danych z Internetu – czy data scraping jest legalny?

Na czym właściwie polega web scraping?

Zamów pakiet umów IT!

Pakiet wzorów umów dla software house’u/firmy IT [PL/EN]