PLLuM to pierwszy rządowy LLM (Large Language Model) zaprojektowany specjalnie z myślą o języku polskim. Mogą z niego już korzystać wszyscy internauci. Jednak wciąż jest jeszcze rozwijany i udoskonalany. Do konsorcjum, które się tym zajmuje, dołączyły właśnie dwa podmioty.
PLLuM to nie jest pojedynczy model językowy. To cała rodzina modeli o różnych zastosowaniach. W jego skład wchodzi 18 wersji różniących się liczbą parametrów oraz przeznaczeniem.
– PLLuM to dowód na to, że możemy rozwijać nowoczesne technologie na własnych warunkach, w naszym języku, z korzyścią dla obywatelek i obywateli. Tworzymy fundament pod inteligentne usługi publiczne i innowacje, które będą realnym wsparciem zarówno dla administracji, jak i biznesu – mówi Krzysztof Gawkowski, wicepremier i minister cyfryzacji.
Co wchodzi w skład PLLuM?
Modele, które wchodzą w skład PLLuM można podzielić na:
– bazowe – przechodzące adaptację językową i rozumiejące język polski;
– instrukcyjne – trenowane do wykonywania konkretnych zadań na podstawie instrukcji;
– chaty – dostosowane do interakcji i rozmów z użytkownikami.
Dane PLLuM to 100 miliardów słów. Na tej podstawie powstał jego korpus treningowy. Dane zbierano w sposób organiczny, czyli bez generowania syntetycznych treści. Zwiększyło to ich wiarygodność i wartość. Zbierane były również na bazie różnych źródeł od tekstów literackich, przez dokumenty urzędowe, po zasoby instytucji naukowych.
Opracowano też sposób na uniknięcie halucynacji, czyli generowania błędnych informacji. W tym celu zastosowano:
– dostarczenie większej ilości danych – na bogatszym zbiorze treningowym model wypracowuje większa precyzję;
– testy odporności na manipulację, czyli specjalne ataki testowe sprawdzające stabilność modelu:
– połączenie z bazami wiedzy (RAG) – w przyszłości możliwości modeli PLLuM zostanie rozszerzona o możliwość korzystania z aktualnych źródeł danych, co pozwoli im unikać dezaktualizacji informacji.
Wykorzystanie PLLuM
W 2025 roku modele PLLuM trafią do wybranych instytucji publicznych. Pierwsze ich wdrożenie to integracja z aplikacją mObywatel. Pozwoli to użytkownikom na uzyskiwanie odpowiedzi na pytania związane z procedurami urzędowymi.
Planowane są jednak kolejne wdrożenia PLLuM do usług publicznych. Obok wirtualnego asystenta w mObywatelu będą to:
– inteligentny asystent urzędniczy, który zautomatyzuje przetwarzanie dokumentów, analizę treści, wyszukiwanie informacji i wsparcie w udzielaniu odpowiedzi na pytania;
– wsparcie edukacji poprzez rozwój aplikacji edukacyjnych, tłumaczeń i pomoc nauczycielom i nauczycielkom w prowadzeniu angażujących lekcji.
Wersje PLLuM do użytku komercyjnego wykorzystują zasoby tekstowe od właścicieli. Dotyczy to oczywiście tych, którzy udzielili odpowiednich licencji konsorcjum opracowującym PLLuM. Poza tym znajdują się tam treści, które mogą być wykorzystane do budowy w pełni otwartego modelu w oparciu o ustawę o prawie autorskim i prawach pokrewnych oraz zgodnie z przepisami unijnymi.Modele naukowe, czyli takie, które są udostępniane na licencjach, które nie pozwalają na zastosowania komercyjne, korzystają także z ogólnodostępnych zbiorów danych, takich jak Common Crawl.
Czatbot oparty na PLLuM został udostępniony w serwisie Pllum.clarin-pl.eu. Można z niego korzystać także bez logowania się. Ministerstwo cyfryzacji w swoim komunikacie podkreśla, że PLLuM wykorzystuje od 8 do 70 mld parametrów. Umożliwia to precyzyjne generowanie treści w języku polskim, co na wskazanej wyżej stronie mogą sprawdzić wszyscy internauci.
Dalszy rozwój PLLuM
Do tej pory w konsorcjum, które pracuje nad rozwojem PLLuM, współpracowało sześć podmiotów. Były to:
– Politechnika Wrocławska, która jest liderem projektu;
– Instytut Podstaw Informatyki PAN;
– Instytut Slawistyki PAN;
– Naukowa i Akademicka Sieć Komputerowa (NASK-PIB);
– Ośrodek Przetwarzania Informacji (OPI-PIB);
– Uniwersytet Łódzki.
W 2025 r. konsorcjum powiększy się o kolejne dwa:
– Centralny Ośrodek Informatyki;
– Akademickie Centrum Komputerowe CYFRONET AGH.
Centralny Ośrodek Informatyki będzie wdrażać model, jako narzędzia dla urzędników i w mObywatelu – wirtualny asystent ułatwiający korzystanie z usług administracji publicznej. Akademickie Centrum Komputerowe CYFRONET AGH będzie odpowiedzialne za dostarczenie mocy obliczeniowych pod uczenie modeli i ich udostępnianie. Dysponuje ono niezbędną infrastrukturą obliczeniową, w tym najszybszym superkomputerem w Polsce.
Na to wszystko potrzeba jednak dodatkowych pieniędzy.
– Rozwój PLLuM to inwestycja w cyfrowe państwo. Do tej pory przeznaczyliśmy na ten projekt 14,5 mln zł, a teraz idziemy krok dalej – kolejne 19 mln zł pozwoli na wdrożenie modelu w administracji publicznej i rozszerzenie współpracy o nowych partnerów, takich jak COI i Cyfronet. Dzięki temu PLLuM stanie się kluczowym elementem cyfryzacji usług publicznych i rozwoju krajowego ekosystemu AI –zapewnia Dariusz Standerski, wiceminister cyfryzacji.
Źródło: gov.pl, Wirtualne Media