
fot. Nahrizul Kadri/unsplash
„Każda sztuczna inteligencja ma swój styl” – artykuł Polki w Scientific American
Podobnie jak ludzie, ChatGPT i Gemini AI mają swoje własne, charakterystyczne style pisania – wynika z polskich badań, których wyniki opublikował w środę „Scientific American”. Autorką jest dr Karolina Rudnicka z Uniwersytetu Gdańskiego.
„Styl to człowiek” to polskie tłumaczenie francuskiego „Le style c’est l’homme”. Uważa się, że słowa te wypowiedział Georges-Louis Leclerc, hrabia de Buffon, w swoim przemówieniu inauguracyjnym „Discours sur le style” w 1753 roku. Najwyraźniej także sztuczna inteligencja może mieć własny styl.
Badania nad stylem chatbotów przeprowadziła dr Karolina Rudnicka, która jest językoznawczynią na Uniwersytecie Gdańskim. Zajmuje się badaniem zmienności i zmian języka, zwłaszcza pod wpływem nowych technologii i na przestrzeni czasu.
>>> AI zmieni sposób uprawiania turystyki i poznawania nowych miejsc
Lingwiści wiedzą, że każda osoba ma odrębny sposób wyrażania siebie, zależny od języka ojczystego, wieku, płci, wykształcenia i innych czynników. Ten indywidualny styl wypowiedzi nazywany jest „idiolektem”. To koncepcja podobna do dialektu, który jest odmianą języka używanego przez społeczność, ale znacznie węższa.
Idiolekty są przydatne w lingwistyce kryminalistycznej – podczas przesłuchań podejrzanych, przypisywania autorstwa dokumentom i wiadomościom tekstowym, sprawdzania pochodzenia osób ubiegających się o azyl, wykrywania plagiatów. Coraz więcej osób, w tym nauczyciele, martwi się, że modele językowe są wykorzystywane przez studentów ze szkodą dla ich edukacji — na przykład poprzez zlecanie zadań pisemnych ChatGPT.

Dr Rudnicka postanowiła przeanalizować język ChatGPT, Gemini i Copilota, aby dowiedzieć się, czy mają swój idiolekt.
Badania wykazały, że ChatGPT ma tendencję do faworyzowania standardowej gramatyki i wyrażeń akademickich, unikając slangu lub kolokwializmów. W porównaniu z tekstami pisanymi przez ludzi, ma tendencję do nadużywania nieco bardziej wyrafinowanych czasowników i przymiotników.
Autorka przeanalizowała zestaw danych skompilowany przez informatyka Muhammada Naveeda, który zawiera setki krótkich tekstów na temat cukrzycy napisanych przez ChatGPT i Gemini. Teksty mają praktycznie taki sam rozmiar, a więc można ich używać do porównywania i analizowania wydajności obu modeli AI „w generowaniu informacyjnych i spójnych treści na temat medyczny”.
Jednym z popularnych sposobów przypisywania autorstwa jest metoda Delta, wprowadzona w 2001 r. przez Johna Burrowsa. Porównuje częstość występowania słów powszechnie używanych w tekstach: słów, które służą do wyrażania relacji z innymi słowami — kategoria obejmująca „i”, „to”, „z”, „ten”, „że” i „dla”; a także słów treści – takich jak „glukoza” lub „cukier”.
W ten sposób metoda Delta wychwytuje cechy, które zależą od idiolektów ich autorów. W szczególności generuje liczby mierzące „odległości” językowe między badanym tekstem a tekstami typowymi dla danego autora. Im mniejsza odległość, która zazwyczaj jest nieco poniżej lub powyżej 1, tym większe prawdopodobieństwo, że autor jest ten sam.
Jak się okazało, losowa próbka 10 proc. tekstów na temat cukrzycy wygenerowana przez ChatGPT ma odległość 0,92 do całego zestawu danych ChatGPT na temat cukrzycy i odległość 1,49 do całego zestawu danych Gemini. Podobnie losowa próbka 10 proc. tekstów Gemini ma odległość 0,84 do Gemini i 1,45 do ChatGPT. W obu przypadkach autorstwo okazuje się dość jasne, co wskazuje, że modele obu narzędzi mają różne style pisania – na przykład jeden woli pisać o „cukrze”, drugi o „glukozie”.
Aby lepiej zrozumieć te style, można wybrać charakterystyczne słowa w grupach po 3 na temat cukrzycy. Takie kombinacje nazywane są „trigramami”. Widząc, które trigramy są używane najczęściej, można wyczuć unikatowy sposób łączenia słów. Dr Rudnicka wyodrębniła i porównała 20 najczęściej występujących trigramów dla ChatGPT i Gemini.

Trigramy ChatGPT w tych tekstach sugerują bardziej formalny, kliniczny i akademicki idiolekt, z frazami takimi jak „osoby z cukrzycą”, „poziomy glukozy we krwi”, „rozwój”, „charakteryzowany przez podwyższony” i „zwiększone ryzyko”. Z kolei trigramy Gemini są bardziej konwersacyjne i wyjaśniające, z frazami takimi jak „sposób na”, „kaskada”, „nie jest”, „wysoki poziom cukru we krwi” i „kontrola poziomu cukru we krwi”.
Gemini używa formalnej frazy „poziomy glukozy we krwi” tylko raz w całym zestawie danych — więc zna tę frazę, ale wydaje się jej unikać. Z kolei „wysoki poziom cukru we krwi” pojawia się tylko 25 razy w odpowiedziach ChatGPT w porównaniu do 158 razy w odpowiedziach Gemini. ChatGPT używa słowa „glukoza” ponad dwa razy częściej niż „cukier”, podczas gdy Gemini robi dokładnie odwrotnie: pisze „cukier” ponad dwa razy częściej niż „glukoza”. Wybór słów takich jak „cukier” zamiast „glukoza” wskazuje na preferencję dla prostego, przystępnego języka.
Dlaczego LLM rozwijają idiolekty? Być może chodzi o wybieranie najmniej wymagającego sposobu wykonania danego zadania. Gdy słowo lub fraza stanie się częścią ich repertuaru językowego podczas szkolenia, modele mogą nadal go używać i łączyć z podobnymi wyrażeniami, podobnie jak ludzie mają ulubione słowa lub frazy, których używają z ponadprzeciętną częstotliwością w mowie lub piśmie.
Może to być także forma primingu (torowania) – jak w przypadku ludzi, którzy słyszą słowo, a następnie są bardziej skłonni go użyć. Być może każdy model w jakiś sposób ulega torowaniu pod wpływem słów, których używa wielokrotnie.
Fakt, że narzędzia oparte na LLM produkują różne idiolekty — które mogą się zmieniać i rozwijać w trakcie aktualizacji lub nowych wersji — ma znaczenie dla trwającej debaty na temat tego, jak daleko AI do osiągnięcia inteligencji na poziomie ludzkim. Ma to znaczenie, jeśli modele chatbotów nie tylko uśredniają lub odzwierciedlają swoje dane treningowe, ale rozwijają w tym procesie charakterystyczne nawyki leksykalne, gramatyczne lub składniowe, podobnie jak ludzie są kształtowani przez nasze doświadczenia.
Na razie wiedza, że LLM piszą w idiolektach może pomóc ustalić, czy esej lub artykuł został stworzony przez model, czy przez konkretną osobę — tak jak można rozpoznać wiadomość znajomego na czacie grupowym po jego charakterystycznym stylu.
Wybrane dla Ciebie
Czytałeś? Wesprzyj nas!
Działamy także dzięki Waszej pomocy. Wesprzyj działalność ewangelizacyjną naszej redakcji!
Zobacz także |
Wasze komentarze |