Firma OpenAI skanuje strony internetowe i w oparciu o tak pozyskiwane informacje rozwija swoje produkty oparte na sztucznej inteligencji. Trenuje na pozyskanych treściach swoje duże modele językowe. Ale czy da się przed tym chronić? Okazuje się, że tak.
OpenAI to firma, która stworzyła ChatGPT. Jest także odpowiedzialna za crawlera webowego. Jego zadaniem jest skanowanie stron internetowych dostępnych w sieci. Pozwala to na gromadzenie danych, by na nich uczyć swoje programy oparte na AI. Jednak nie wszyscy chcą, by ich treści były materiałem szkoleniowym dla produktów OpenAI.
Czy można chronić stronę przed ChatGPT?
Spółka Sama Altmana odpowiada na to pytanie twierdząco. Udostępniła możliwość blokowania botów skanujących. Operatorzy stron internetowych mogą teraz zablokować crawler GPTBot w pliku Robots.txt. Mogą również zbanować jego adres IP.
O tej opcji informuje OpenAI w specyfikacji bota na swoim blogu. Ponadto zgodnie z założeniem bot porusza się po różnych stronach la trenowania modeli AI, ale są wyjątki. Są nimi strony chronione przez paywall i te, które gromadzą dane pozwalające na identyfikację konkretnych osób czy zawierają treści naruszające regulamin usług OpenAI.
Wiele problemów – jedno rozwiązanie
Skanowanie stron internetowych i gromadzenie w ten sposób danych, które pozwalają udoskonalać produkty oparte na AI to jeden z najgorętszych tematów dotyczących sztucznej inteligencji. Pobieranie danych, a następnie trenowanie na nich modeli, to często działania, które naruszają prawa autorskie. Pozwala to modelom generującym obrazy na tworzenie ich imitując styl rozpoznawalnych artystów cyfrowych. Modele generujące tekst mogą dzięki temu naśladować sposób pisania znanych autorów.
W związku z tymi działaniami OpenAI otrzymała pozew od pokrzywdzonych artystów/artystek i autorów/autorek. Podobny problem miała też firma Google.