Ochrona przed botami AI: Jak zapobiegać scrapowaniu treści?
Generatywna sztuczna inteligencja staje się bardzo popularna, co sprawia, że zapotrzebowanie na nowe treści do generowania modeli, poszybowało mocno w górę. A skąd brać te treści jak nie z dostępnych w sieci stron internetowych? Nie chcesz by ktoś kradł Twoje artykuły czy obrazy? Jest na to kilka sposobów.
Według doniesień, Google płacił rocznie 60 milionów dolarów za licencję na treści generowane przez użytkowników Reddita, a ostatnio Perplexity został oskarżony o podszywanie się pod legalnych użytkowników w celu scrapowania zawartości stron internetowych.
Blokowanie botów AI przed scrapowaniem treści to wyzwanie, które wymaga zastosowania kilku strategii, w tym zarówno prostych jak i zaawansowanych technik. Niestety może się okazać, że nie wszystkie prośby o nie zbieranie danych będą respektowane.
Table of Contents
Blokowanie przy pomocy Cloudflare
Najłatwiejszą opcją jest blokowanie takich robotów sieciowych poprzez usługę Cloudflare. Wystarczy w opcjach domeny, którą mamy skierowaną na Cloudflare włączyć blokowanie znanych botów AI.
Przechodzimy do sekcji Security > Bots > Block AI Bots i włączamy opcję. Od tego momenty, takie boty nie powinny wchodzić na Twoją stronę i pobierać z niej danych. Więcej na temat tego rozwiązania w artykule Declare your AIndependence: block AI bots, scrapers and crawlers with a single click.
Plik robots.txt
To podstawowe narzędzie, które informuje boty, które części witryny mogą indeksować. Możesz dodać do pliku robots.txt wpisy blokujące konkretne boty, np.:
User-agent: AIbot Disallow: /
Należy jednak pamiętać, że plik robots.txt działa tylko na „dobrze zachowujące się” boty, które przestrzegają tych zasad. Niestety są takie boty, które ignorują te ustawienia. Pełną listę botów znajdziesz na https://github.com/ai-robots-txt/ oraz https://darkvisitors.com/.
Blokowanie botów na poziomie serwera
Możesz zablokować boty na poziomie serwera, używając plików konfiguracyjnych takich jak .htaccess (dla serwerów Apache) lub nginx.conf (dla serwerów NGINX). Przykład blokady w .htaccess:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} AI2Bot [NC] RewriteRule .* - [F,L]
Blokowanie dostępu do zasobów publicznych
Ograniczaj dostęp do treści publicznych, np. poprzez wymóg rejestracji lub logowania, a nawet poprzez system subskrypcji. Tego typu treści wymagają zalogowania się lub zakupienia usługi u Ciebie. Niestety są podejrzenia, że takie systemy jak Perplexity, udają prawdziwych użytkowników, by mieć dostęp do tak schowanych treści.
Meta tag noai, noimageai
Meta tag noai jest nowym rozwiązaniem zaprojektowanym specjalnie do zablokowania dostępu dla botów AI, zwłaszcza tych, które zbierają dane w celu trenowania modeli sztucznej inteligencji. Stosowanie tego tagu jest sygnałem dla botów AI, aby nie indeksowały, nie przetwarzały ani nie wykorzystywały zawartości strony internetowej.
Przykładowa składnia tego tagu wygląda tak:
<meta name="robots" content="noai"> <meta name="robots" content="noai, noimageai">
Znaczenie tych atrybutów:
- noai – oznacza dla botów AI, że nie powinny scrapować ani wykorzystywać zawartości strony w swoich działaniach.
- noimageai – oznacza dla botów AI, że nie powinny analizować ani wykorzystywać obrazów z danej strony.
Chociaż ten tag staje się coraz bardziej popularny, jego skuteczność zależy od tego, czy boty AI będą przestrzegały jego wytycznych. Nie wszystkie boty mogą być zaprogramowane do rozpoznawania i respektowania tych metatagów, ale jest to krok w kierunku większej transparentności i ochrony treści przez właścicieli stron internetowych.
Jeżeli będziesz mieć problem z ustawieniem jakieś z tych opcji, skontaktuj się ze mną a na pewno Ci pomogę.