rozwiń zwiń

Fizycy w służbie literatury

LubimyCzytać LubimyCzytać
12.04.2019

Czym jest indywidualny styl literacki? Według krakowskich naukowców z PAN, by poprawnie zidentyfikować autora polskiej powieści, wystarczy prześledzić powiązania pomiędzy 5–6 wyrazami. Tak wynika z właśnie przedstawionych przez nich badań stylometrycznych.

Fizycy w służbie literatury

Stylometria to dziedzina nauki, która pozwala na identyfikowanie twórców na podstawie matematycznej analizy tekstu. Umożliwia ustalanie autorstwa dzieł, a także chronologii tekstów w oparciu o specyficzne cechy językowe. Zakłada, że każdy autor pisze w sposób indywidualny, a teksty pisane w bliskim odstępie czasu będą do siebie bardziej podobne niż te, pomiędzy którymi czasu upłynęło więcej. Co charakterystyczne, stylometria kompletnie pomija warstwę stylistyczną – tropy, ironię, figury metaforyczne i tym podobne – odnosząc się bezpośrednio do konkretnych użytych przez autora wyrazów. Jednym z pierwszych przykładów użycia tego typu analizy jest XIV-wieczna rozprawa Lorenza Valli na temat „Donacji Konstantyna”. Valla przeprowadził gruntowną wiwisekcję i wykazał, że datowany na IV wiek dokument jest fałszerstwem i najprawdopodobniej powstał kilkaset lat później.

Badania stylometryczne posłużyły również amerykańskim naukowcom do stwierdzenia autorstwa jednego z najstarszych dzieł literatury staroangielskiej, czyli poematu „Beowulf”. Dzieło, które z początku istniało tylko w formie słownej, zostało spisane około tysięcznego roku, a autorstwo przypisywane było grupie anonimowych skrybów. Badania Madisona Kriegera z Uniwersytetu Harvarda, pracującego wraz z Josephem Dexterem z Dartmouth College, opublikowane w kwietniu 2019 roku potwierdziły słowa samego J.R.R. Tolkiena, który już na początku XX wieku twierdził, że „Beowulf” został spisany przez jednego autora.

Badania innych uczonych pokazały znaczące zubożenie języka Agathy Christie, co potwierdziło, że w ostatnich latach życia pisarka cierpiała na niezdiagnozowaną chorobę Alzheimera. Stylometria posłużyła również do określania autorstwa poszczególnych tekstów wchodzących w skład Starego i Nowego Testamentu. Programy antyplagiatowe wykorzystywane m.in. na uczelniach także opierają się na tej metodzie badawczej.

Na łamach czasopisma „Information Sciences” naukowcy z Instytutu Fizyki Jądrowej PAN przedstawili własne narzędzie statystyczne do analizy stylometrycznej. Posłużyli się sieciową reprezentacją tekstów za pomocą grafów ważonych. W takich sieciach najbardziej przydatne okazały się dwa parametry: krotność węzłów i tzw. współczynnik gronowania. Pierwszy z nich opisuje liczbę krawędzi wychodzących z danego węzła i bezpośrednio wiąże się z liczbą wystąpień danego wyrazu w tekście. Z kolei współczynnik gronowania opisuje prawdopodobieństwo tego, że dwa wyrazy połączone krawędzią z danym wyrazem są połączone krawędzią także między sobą.

Z pomocą tak przygotowanych narzędzi statystycznych fizycy przyjrzeli się 96 książkom: sześciu powieściom autorstwa ośmiorga znanych autorów angielskich (Jane Austen, Joseph Conrad, Daniel Defoe, Charles Dickens, Arthur Conan Doyle, T.S. Eliot, George Orwell, Mark Twain) i ośmiorga polskich (Janusz Korczak, Jóżef Ignacy Kraszewski, Stanisław Lem, Eliza Orzeszkowa, Bolesław Prus, Władysław Reymont, Henryk Sienkiewicz, Stefan Żeromski). Grupa z IFJ PAN sprawdzała następnie, z jaką wiarygodnością można w ramach jednego języka stwierdzić autorstwo dwunastu losowo wybranych dzieł, traktując pozostałą część puli utworów jako materiał do porównań.

W przypadku tekstów angielskich autorstwo poprawnie stwierdzano w niemal 90% przypadków, a by osiągnąć sukces, wystarczyło prześledzić powiązania pomiędzy 10–12 wyrazami. Dla dzieł polskojęzycznych prawdopodobieństwo poprawnej identyfikacji wynosiło aż 95% i to przy użyciu zaledwie 5–6 słów. Co interesujące, w obu badaniach znaki interpunkcyjne traktowano jako osobne wyrazy. Pominięcie interpunkcji skutkowało wyraźnym spadkiem skuteczności badań.

„W porównaniu z językiem angielskim język polski wydaje się dawać większe możliwości ujawniania się stylu autora. Sądzimy, że podobną cechą charakteryzują się również pozostałe języki słowiańskie. Angielski jest bowiem językiem pozycyjnym, co oznacza, że istotna jest w nim kolejność wyrazów w zdaniu. Taki język pozostawia mniej miejsca na indywidualny styl wypowiedzi niż języki słowiańskie, w których o roli słowa czy wyrazu w zdaniu decyduje fleksja, czyli odmiana. Dopuszcza ona bowiem większą swobodę organizacji kolejności wyrazów w zdaniu przy niezmienionym jego znaczeniu” – komentuje prof. Stanisław Drożdż (Instytut Fizyki Jądrowej PAN, Politechnika Krakowska).

Źródło: PAN


komentarze [15]

Sortuj:
Niezalogowany
Aby napisać wiadomość zaloguj się
Monika 03.08.2019 16:18
Czytelnik

Krzysztof i przed nim asymon zadali ciekawe pytanie: co z dziełami, w których autor bawi się stylem, celowo go zmienia, różnicami w stylu stara się podkreślić inność bohaterów, czasów, światów, używa różnych stylów do przedstawiania różnych punktów widzenia? Czy tacy autorzy i takie dzieła wymykają się tej analizie statystycznej? A może nie, może różnice celowo...

Czytelnicy oznaczyli ten post jako spam Zobacz ten post więcej
Krzysztof Baliński 27.07.2019 13:34
Bibliotekarz

A co z "Atlasem chmur", tam każde opowiadanie jest pisane z innej bajki, inną stylizacją od wyrafinowanego XIX wiecznego stylu retoryczego, czyli sposobu wysławiania się narratora - bohatera literackiego, aż do przyszłościowego neobarbarzyństwa kulturowego. Ciekawe czy to da się poprawnie "wyliczyć", że to ten sam Dawid Mitchell pisał i doskonale wczuł się w tych kilka...

Czytelnicy oznaczyli ten post jako spam Zobacz ten post więcej
Karmiacy_Kolibry 13.04.2019 21:15
Czytelnik

No to teraz należało by sprawdzić ilu autorów mają książki Remigiusza Mroza ...

Czytelnicy oznaczyli ten post jako spam Zobacz ten post
grafzero 13.04.2019 22:01
Czytelnik

Te ostatnie to pewnie mają Katarzynę Bondę :D

Czytelnicy oznaczyli ten post jako spam Zobacz ten post
grafzero 13.04.2019 22:01
Czytelnik

Te ostatnie to pewnie mają Katarzynę Bondę :D

Czytelnicy oznaczyli ten post jako spam Zobacz ten post
Niezalogowany
Aby napisać wiadomość zaloguj się
Noxi 13.04.2019 09:10
Czytelniczka

Świetny artykuł! To jest treść, którą chcę czytać w sobotni poranek z kawą :)

Czytelnicy oznaczyli ten post jako spam Zobacz ten post
konto usunięte
13.04.2019 06:42
Czytelnik

Użytkownik wypowiedzi usunął konto

asymon 13.04.2019 06:31
Bibliotekarz

Ciekawe, czy sposób ten jest w stanie wyłapać celowo zmieniony styl, jak w "Mechanicznej pomarańczy" czy "Kwiatach dla Algernona".

I co w przypadku tłumaczeń, czy styl tlumacza przesłania styl autora?

Czytelnicy oznaczyli ten post jako spam Zobacz ten post
jatymyoni 13.04.2019 13:13
Bibliotekarz

Może można po stylu tłumaczenia poznać tłumacza danego tekstu.

Czytelnicy oznaczyli ten post jako spam Zobacz ten post
Niezalogowany
Aby napisać wiadomość zaloguj się
Airain 13.04.2019 00:07
Czytelniczka

To już wiadomo, kto napisał sztuki Szekspira? ^_~

Czytelnicy oznaczyli ten post jako spam Zobacz ten post
Grzegorz Mastalerz 12.04.2019 16:22
Czytelnik

Teraz czas na sprawdzenie czy pod pseudonimami kryją się ci autorzy, których się o to podejrzewa :)

Czytelnicy oznaczyli ten post jako spam Zobacz ten post
jatymyoni 12.04.2019 16:13
Bibliotekarz

No to kto sprawdzi książki pana Mroza?

Czytelnicy oznaczyli ten post jako spam Zobacz ten post
konto usunięte
13.04.2019 06:37
Czytelnik

Użytkownik wypowiedzi usunął konto

Niezalogowany
Aby napisać wiadomość zaloguj się
czytamcałyczas 12.04.2019 15:38
Czytelnik

W 7 klasie nie zdałem z fizyki

Czytelnicy oznaczyli ten post jako spam Zobacz ten post