Fizycy w służbie literatury

LubimyCzytać
12.04.2019

Czym jest indywidualny styl literacki? Według krakowskich naukowców z PAN, by poprawnie zidentyfikować autora polskiej powieści, wystarczy prześledzić powiązania pomiędzy 5–6 wyrazami. Tak wynika z właśnie przedstawionych przez nich badań stylometrycznych.

Stylometria to dziedzina nauki, która pozwala na identyfikowanie twórców na podstawie matematycznej analizy tekstu. Umożliwia ustalanie autorstwa dzieł, a także chronologii tekstów w oparciu o specyficzne cechy językowe. Zakłada, że każdy autor pisze w sposób indywidualny, a teksty pisane w bliskim odstępie czasu będą do siebie bardziej podobne niż te, pomiędzy którymi czasu upłynęło więcej. Co charakterystyczne, stylometria kompletnie pomija warstwę stylistyczną – tropy, ironię, figury metaforyczne i tym podobne – odnosząc się bezpośrednio do konkretnych użytych przez autora wyrazów. Jednym z pierwszych przykładów użycia tego typu analizy jest XIV-wieczna rozprawa Lorenza Valli na temat „Donacji Konstantyna”. Valla przeprowadził gruntowną wiwisekcję i wykazał, że datowany na IV wiek dokument jest fałszerstwem i najprawdopodobniej powstał kilkaset lat później.

Badania stylometryczne posłużyły również amerykańskim naukowcom do stwierdzenia autorstwa jednego z najstarszych dzieł literatury staroangielskiej, czyli poematu „Beowulf”. Dzieło, które z początku istniało tylko w formie słownej, zostało spisane około tysięcznego roku, a autorstwo przypisywane było grupie anonimowych skrybów. Badania Madisona Kriegera z Uniwersytetu Harvarda, pracującego wraz z Josephem Dexterem z Dartmouth College, opublikowane w kwietniu 2019 roku potwierdziły słowa samego J.R.R. Tolkiena, który już na początku XX wieku twierdził, że „Beowulf” został spisany przez jednego autora.

Badania innych uczonych pokazały znaczące zubożenie języka Agathy Christie, co potwierdziło, że w ostatnich latach życia pisarka cierpiała na niezdiagnozowaną chorobę Alzheimera. Stylometria posłużyła również do określania autorstwa poszczególnych tekstów wchodzących w skład Starego i Nowego Testamentu. Programy antyplagiatowe wykorzystywane m.in. na uczelniach także opierają się na tej metodzie badawczej.

Na łamach czasopisma „Information Sciences” naukowcy z Instytutu Fizyki Jądrowej PAN przedstawili własne narzędzie statystyczne do analizy stylometrycznej. Posłużyli się sieciową reprezentacją tekstów za pomocą grafów ważonych. W takich sieciach najbardziej przydatne okazały się dwa parametry: krotność węzłów i tzw. współczynnik gronowania. Pierwszy z nich opisuje liczbę krawędzi wychodzących z danego węzła i bezpośrednio wiąże się z liczbą wystąpień danego wyrazu w tekście. Z kolei współczynnik gronowania opisuje prawdopodobieństwo tego, że dwa wyrazy połączone krawędzią z danym wyrazem są połączone krawędzią także między sobą.

Z pomocą tak przygotowanych narzędzi statystycznych fizycy przyjrzeli się 96 książkom: sześciu powieściom autorstwa ośmiorga znanych autorów angielskich (Jane Austen, Joseph Conrad, Daniel Defoe, Charles Dickens, Arthur Conan Doyle, T.S. Eliot, George Orwell, Mark Twain) i ośmiorga polskich (Janusz Korczak, Jóżef Ignacy Kraszewski, Stanisław Lem, Eliza Orzeszkowa, Bolesław Prus, Władysław Reymont, Henryk Sienkiewicz, Stefan Żeromski). Grupa z IFJ PAN sprawdzała następnie, z jaką wiarygodnością można w ramach jednego języka stwierdzić autorstwo dwunastu losowo wybranych dzieł, traktując pozostałą część puli utworów jako materiał do porównań.

W przypadku tekstów angielskich autorstwo poprawnie stwierdzano w niemal 90% przypadków, a by osiągnąć sukces, wystarczyło prześledzić powiązania pomiędzy 10–12 wyrazami. Dla dzieł polskojęzycznych prawdopodobieństwo poprawnej identyfikacji wynosiło aż 95% i to przy użyciu zaledwie 5–6 słów. Co interesujące, w obu badaniach znaki interpunkcyjne traktowano jako osobne wyrazy. Pominięcie interpunkcji skutkowało wyraźnym spadkiem skuteczności badań.

„W porównaniu z językiem angielskim język polski wydaje się dawać większe możliwości ujawniania się stylu autora. Sądzimy, że podobną cechą charakteryzują się również pozostałe języki słowiańskie. Angielski jest bowiem językiem pozycyjnym, co oznacza, że istotna jest w nim kolejność wyrazów w zdaniu. Taki język pozostawia mniej miejsca na indywidualny styl wypowiedzi niż języki słowiańskie, w których o roli słowa czy wyrazu w zdaniu decyduje fleksja, czyli odmiana. Dopuszcza ona bowiem większą swobodę organizacji kolejności wyrazów w zdaniu przy niezmienionym jego znaczeniu” – komentuje prof. Stanisław Drożdż (Instytut Fizyki Jądrowej PAN, Politechnika Krakowska).

Źródło: PAN

Reklama

komentarze [15]

Sortuj:
1373
17
03.08.2019 16:18

Krzysztof i przed nim asymon zadali ciekawe pytanie: co z dziełami, w których autor bawi się stylem, celowo go zmienia, różnicami w stylu stara się podkreślić inność bohaterów, czasów, światów, używa różnych stylów do przedstawiania różnych punktów widzenia? Czy tacy autorzy i takie dzieła wymykają się tej analizie statystycznej? A może nie, może różnice celowo...

więcej

1866
583
27.07.2019 13:34

A co z "Atlasem chmur", tam każde opowiadanie jest pisane z innej bajki, inną stylizacją od wyrafinowanego XIX wiecznego stylu retoryczego, czyli sposobu wysławiania się narratora - bohatera literackiego, aż do przyszłościowego neobarbarzyństwa kulturowego. Ciekawe czy to da się poprawnie "wyliczyć", że to ten sam Dawid Mitchell pisał i doskonale wczuł się w tych kilka...

więcej

744
35
13.04.2019 21:15

No to teraz należało by sprawdzić ilu autorów mają książki Remigiusza Mroza ...


417
112
13.04.2019 22:01

Te ostatnie to pewnie mają Katarzynę Bondę :D


417
112
13.04.2019 22:01

Te ostatnie to pewnie mają Katarzynę Bondę :D


859
40
13.04.2019 09:10

Świetny artykuł! To jest treść, którą chcę czytać w sobotni poranek z kawą :)


0
1250
konto usunięte
13.04.2019 06:42

Użytkownik wypowiedzi usunął konto


1471
296
13.04.2019 06:31

Ciekawe, czy sposób ten jest w stanie wyłapać celowo zmieniony styl, jak w "Mechanicznej pomarańczy" czy "Kwiatach dla Algernona".

I co w przypadku tłumaczeń, czy styl tlumacza przesłania styl autora?


2847
688
13.04.2019 13:13

Może można po stylu tłumaczenia poznać tłumacza danego tekstu.


1068
89
13.04.2019 00:07

To już wiadomo, kto napisał sztuki Szekspira? ^_~


140
17
12.04.2019 16:22

Teraz czas na sprawdzenie czy pod pseudonimami kryją się ci autorzy, których się o to podejrzewa :)


2847
688
12.04.2019 16:13

No to kto sprawdzi książki pana Mroza?


0
1250
13.04.2019 06:37

Ja bym to zrobiła, bo mnie to męczy, ale najpierw muszę usłyszeć oświadczenie autora.


4051
3811
12.04.2019 15:38

W 7 klasie nie zdałem z fizyki


zgłoś błąd