Cyfrowa analiza języka Wieszczów

Celem projektu jest udostępnienie badaczom i ogólnie „użytkownikom języka polskiego” (także uczniom i studentom)  do wszechstronnej eksploracji przygotowanej profesjonalnie bazy danych tekstowych polskiego tzw. „wielkiego romantyzmu” – kategorii kluczowej dla kulturowej tożsamości i ważnego (centralnego) komponentu dziedzictwa narodowego.

Punktem wyjściowym projektu jest opracowanie korpusów tekstów czterech autorów: Adama Mickiewicza, Juliusza Słowackiego, Zygmunta Krasińskiego oraz Cypriana Norwida. Autorzy Ci, urodzeni między 1798 a 1822 rokiem działali w jednym środowisku, połączeni byli siecią wzajemnych powiązań,  a pochodzili z miejsc prezentujących różne odmiany polszczyzny – kresową litewską Mickiewicz, kresową wołyńską – Słowacki, zaś Krasiński i Norwid – mazowiecką.

Korpus każdego z tych autorów obejmuje w założeniu wszystkie jego znane teksty, fragmenty tekstów, a nawet udokumentowane, luźne słowa (a więc kompletny zasób leksykalny danego autora), według zaklasyfikowanych wydań w największym stopniu spełniających wymogi edytorstwa naukowego. Korpusy –  oparte na wydaniach dzieł zebranych będą uzupełniane o teksty/fragmenty tekstów w nich nie uwzględnione a opublikowane osobno, oraz  kontrolowane z późniejszymi, osobnymi  wydaniami  pojedynczych utworów lub ich wyborów.

Pierwszą fazą przewidzianą do wykonania w 2017 roku jest opracowanie korpusu Juliusza Słowackiego. Korpus ten obejmuje wybrane, zweryfikowane edycje wszystkich dzieł a także wszystkie warianty, marginalia i notatki osobiste – i szerzej. wszystkie słowa, które zostały przez niego gdziekolwiek i w jakimkolwiek kontekście użyte.

Wszystkie przekazy źródłowe będą dostępne w postaci plików tekstowych a docelowo, także w oryginalnych wersjach (pdf) oraz zaawansowanej wyszukiwarki, pozwalającej na różnicowanie kryteriów przeszukiwania według opracowanych kategorii metadanych.

Informatycznym partnerem projektu jest Clarin-pl. Podkorpus wraz z narzędziami będzie umieszczony na platformie dSpace w wolnym dostępie i obsługiwany przez Clarin-pl.

Opracowanie podkorpusu Juliusza Słowackiego będzie jednocześnie służyło jako pole doświadczalne przed ewentualnym opracowaniem kolejnych podkorpusów, które w przyszłości mają się składać na Cyfrowy hiperkorpus czterech Wieszczów, umożliwiający porównawczą, cyfrową analizę języka Wieszczów.

Osoby zaangażowane w projekt:

Marek Troszyński (Kierownik)

Tomasz Korpysz

Ewa Mirkowska

Marlena Wilczak