TECHNOLOGIA · CYBERBEZPIECZEŃSTWO · BIZNES

Czy da się ochronić strony internetowe przed skanowaniem OpenAI?

Firma OpenAI skanuje strony internetowe i w oparciu o tak pozyskiwane informacje rozwija swoje produkty oparte na sztucznej inteligencji. Trenuje na pozyskanych treściach swoje duże modele językowe. Ale czy da się przed tym chronić? Okazuje się, że tak.

OpenAI to firma, która stworzyła ChatGPT. Jest także odpowiedzialna za crawlera webowego. Jego zadaniem jest skanowanie stron internetowych dostępnych w sieci. Pozwala to na gromadzenie danych, by na nich uczyć swoje programy oparte na AI. Jednak nie wszyscy chcą, by ich treści były materiałem szkoleniowym dla produktów OpenAI.

Czy można chronić stronę przed ChatGPT?

Spółka Sama Altmana odpowiada na to pytanie twierdząco. Udostępniła możliwość blokowania botów skanujących. Operatorzy stron internetowych mogą teraz zablokować crawler GPTBot w pliku Robots.txt. Mogą również zbanować jego adres IP.

O tej opcji informuje OpenAI w specyfikacji bota na swoim blogu. Ponadto zgodnie z założeniem bot porusza się po różnych stronach la trenowania modeli AI, ale są wyjątki. Są nimi strony chronione przez paywall i te, które gromadzą dane pozwalające na identyfikację konkretnych osób czy zawierają treści naruszające regulamin usług OpenAI.

Wiele problemów – jedno rozwiązanie

Skanowanie stron internetowych i gromadzenie w ten sposób danych, które pozwalają udoskonalać produkty oparte na AI to jeden z najgorętszych tematów dotyczących sztucznej inteligencji. Pobieranie danych, a następnie trenowanie na nich modeli, to często działania, które naruszają prawa autorskie. Pozwala to modelom generującym obrazy na tworzenie ich imitując styl rozpoznawalnych artystów cyfrowych. Modele generujące tekst mogą dzięki temu naśladować sposób pisania znanych autorów.

W związku z tymi działaniami OpenAI otrzymała pozew od pokrzywdzonych artystów/artystek i autorów/autorek. Podobny problem miała też firma Google.

Trenowanie modeli jest także kontrowersyjne w świecie mediów. Pomimo zapewnień OpenAI algorytmu niejednokrotnie szkoliły się poprzez obejście zabezpieczenia strony paywallem.

Teraz wprowadzenie blokowania crawlera OpenAI jest pierwszym krokiem na drodze do ochrony danych przed skanowaniem przez sztuczną inteligencję. Mogą z niej skorzystać administratorzy stron internetowych, ale też wszystkie osoby, które nie chcą, by ich treści służyły do szkolenia modeli AI.


Źródło: cyberdefence24.pl
Klaudia Wojciechowska
Klaudia Wojciechowska
Redaktorka ISPortal i ISProfessional. Dziennikarka telewizji lokalnego operatora telekomunikacyjnego Ret-Sat1. Absolwentka kulturoznawstwa na Uniwersytecie Łódzkim ze specjalizacją filmoznawstwo i nowe media.

przeczytaj najnowszy numer isporfessional

Najnowsze