Lubimyczytać.pl Sp. z o.o
http://lubimyczytac.pl/

Fizycy w służbie literatury

7 wartościowy tekst

Czym jest indywidualny styl literacki? Według krakowskich naukowców z PAN, by poprawnie zidentyfikować autora polskiej powieści, wystarczy prześledzić powiązania pomiędzy 5–6 wyrazami. Tak wynika z właśnie przedstawionych przez nich badań stylometrycznych.

Stylometria to dziedzina nauki, która pozwala na identyfikowanie twórców na podstawie matematycznej analizy tekstu. Umożliwia ustalanie autorstwa dzieł, a także chronologii tekstów w oparciu o specyficzne cechy językowe. Zakłada, że każdy autor pisze w sposób indywidualny, a teksty pisane w bliskim odstępie czasu będą do siebie bardziej podobne niż te, pomiędzy którymi czasu upłynęło więcej. Co charakterystyczne, stylometria kompletnie pomija warstwę stylistyczną – tropy, ironię, figury metaforyczne i tym podobne – odnosząc się bezpośrednio do konkretnych użytych przez autora wyrazów. Jednym z pierwszych przykładów użycia tego typu analizy jest XIV-wieczna rozprawa Lorenza Valli na temat „Donacji Konstantyna”. Valla przeprowadził gruntowną wiwisekcję i wykazał, że datowany na IV wiek dokument jest fałszerstwem i najprawdopodobniej powstał kilkaset lat później.

Badania stylometryczne posłużyły również amerykańskim naukowcom do stwierdzenia autorstwa jednego z najstarszych dzieł literatury staroangielskiej, czyli poematu „Beowulf”. Dzieło, które z początku istniało tylko w formie słownej, zostało spisane około tysięcznego roku, a autorstwo przypisywane było grupie anonimowych skrybów. Badania Madisona Kriegera z Uniwersytetu Harvarda, pracującego wraz z Josephem Dexterem z Dartmouth College, opublikowane w kwietniu 2019 roku potwierdziły słowa samego J.R.R. Tolkiena, który już na początku XX wieku twierdził, że „Beowulf” został spisany przez jednego autora.

Badania innych uczonych pokazały znaczące zubożenie języka Agathy Christie, co potwierdziło, że w ostatnich latach życia pisarka cierpiała na niezdiagnozowaną chorobę Alzheimera. Stylometria posłużyła również do określania autorstwa poszczególnych tekstów wchodzących w skład Starego i Nowego Testamentu. Programy antyplagiatowe wykorzystywane m.in. na uczelniach także opierają się na tej metodzie badawczej.

Na łamach czasopisma „Information Sciences” naukowcy z Instytutu Fizyki Jądrowej PAN przedstawili własne narzędzie statystyczne do analizy stylometrycznej. Posłużyli się sieciową reprezentacją tekstów za pomocą grafów ważonych. W takich sieciach najbardziej przydatne okazały się dwa parametry: krotność węzłów i tzw. współczynnik gronowania. Pierwszy z nich opisuje liczbę krawędzi wychodzących z danego węzła i bezpośrednio wiąże się z liczbą wystąpień danego wyrazu w tekście. Z kolei współczynnik gronowania opisuje prawdopodobieństwo tego, że dwa wyrazy połączone krawędzią z danym wyrazem są połączone krawędzią także między sobą.

Z pomocą tak przygotowanych narzędzi statystycznych fizycy przyjrzeli się 96 książkom: sześciu powieściom autorstwa ośmiorga znanych autorów angielskich (Jane Austen, Joseph Conrad, Daniel Defoe, Charles Dickens, Arthur Conan Doyle, T.S. Eliot, George Orwell, Mark Twain) i ośmiorga polskich (Janusz Korczak, Jóżef Ignacy Kraszewski, Stanisław Lem, Eliza Orzeszkowa, Bolesław Prus, Władysław Reymont, Henryk Sienkiewicz, Stefan Żeromski). Grupa z IFJ PAN sprawdzała następnie, z jaką wiarygodnością można w ramach jednego języka stwierdzić autorstwo dwunastu losowo wybranych dzieł, traktując pozostałą część puli utworów jako materiał do porównań.

W przypadku tekstów angielskich autorstwo poprawnie stwierdzano w niemal 90% przypadków, a by osiągnąć sukces, wystarczyło prześledzić powiązania pomiędzy 10–12 wyrazami. Dla dzieł polskojęzycznych prawdopodobieństwo poprawnej identyfikacji wynosiło aż 95% i to przy użyciu zaledwie 5–6 słów. Co interesujące, w obu badaniach znaki interpunkcyjne traktowano jako osobne wyrazy. Pominięcie interpunkcji skutkowało wyraźnym spadkiem skuteczności badań.

„W porównaniu z językiem angielskim język polski wydaje się dawać większe możliwości ujawniania się stylu autora. Sądzimy, że podobną cechą charakteryzują się również pozostałe języki słowiańskie. Angielski jest bowiem językiem pozycyjnym, co oznacza, że istotna jest w nim kolejność wyrazów w zdaniu. Taki język pozostawia mniej miejsca na indywidualny styl wypowiedzi niż języki słowiańskie, w których o roli słowa czy wyrazu w zdaniu decyduje fleksja, czyli odmiana. Dopuszcza ona bowiem większą swobodę organizacji kolejności wyrazów w zdaniu przy niezmienionym jego znaczeniu” – komentuje prof. Stanisław Drożdż (Instytut Fizyki Jądrowej PAN, Politechnika Krakowska).

Źródło: PAN


Pokaż wszystkie artykuły użytkownika LubimyCzytać


Komentarze
Autor:  LubimyCzytać |  wypowiedzi: 13  [pokaż ostatnią] Odpowiedź
książek: 698
Airain
13-04-2019 00:07
To już wiadomo, kto napisał sztuki Szekspira? ^_~
książek: 1270
asymon
13-04-2019 06:31
Ciekawe, czy sposób ten jest w stanie wyłapać celowo zmieniony styl, jak w "Mechanicznej pomarańczy" czy "Kwiatach dla Algernona".

I co w przypadku tłumaczeń, czy styl tlumacza przesłania styl autora?
książek: 2569
jatymyoni
13-04-2019 13:13
Może można po stylu tłumaczenia poznać tłumacza danego tekstu.
Użytkownicy oznaczyli ten post jako spam
książek: 1769
Renax
13-04-2019 06:42
Ale sam artykuł był wyjątkowo dla mnie interesujący, bo ta informacja o Beoulfie i Christie. Bardzo ciekawa.
O programach antyplagiatowych na studiach słyszeliśmy. U nas na licencjacie był profesor, który orzekał czy to plagiat 'ze słuchu'. Ale nie wiem jak to się skończyło, bo jedynie słyszałam o tym z opowieści.
książek: 744
Noxi
13-04-2019 09:10
Świetny artykuł! To jest treść, którą chcę czytać w sobotni poranek z kawą :)
książek: 654
Karmiacy_Kolibry
13-04-2019 21:15
No to teraz należało by sprawdzić ilu autorów mają książki Remigiusza Mroza ...
książek: 275
grafzero
13-04-2019 22:01
Te ostatnie to pewnie mają Katarzynę Bondę :D
Użytkownicy oznaczyli ten post jako spam
Aby napisać wypowiedź musisz być zalogowany. Logowanie
Biblioteczka redaktora
2190 0 33827
Porównaj książki w Waszych biblioteczkach.
Sprawdź oceny wspólnych książek.
Tyle książek ma ten użytkownik w swojej biblioteczce.
Tyle opinii dodał ten użytkownik.
Tyle plusów otrzymał ten użytkownik za swoje wypowiedzi.
Ulubione cytaty (8)
lista cytatów
zgłoś błąd zgłoś błąd