Cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej

Cykl wykładów i warsztatów

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

13–15 kwietnia 2015 roku

Warszawa, Pałac Staszica, ul. Nowy Świat 72, sala 144

Centrum Humanistyki Cyfrowej Instytutu Badań Literackich PAN

CLARIN-PL


Zajęcia prowadzą pracownicy naukowi Politechniki Wrocławskiej, Uniwersytetu Łódzkiego, Uniwersytetu Pedagogicznego im. KEN w Krakowie, Instytutu Podstaw Informatyki PAN: dr Anna Andrzejczuk, dr hab. Maciej Eder, mgr inż. Paweł Kędzia, mgr inż. Jan Kocoń, dr inż. Michał Marcińczuk, dr Marek Maziarz, dr Marcin Oleksy, dr Piotr Pęzik, dr inż. Maciej Piasecki, dr Ewa Rudnicka, dr inż. Tomasz Walkowiak, mgr inż. Michał Wendelberger, dr Marcin Woliński, dr Alina Wróblewska

Zapraszamy na warsztaty z praktycznego wykorzystania cyfrowych narzędzi do ilościowej analizy języka, skierowane do badaczy z obszaru nauk humanistycznych i społecznych, oraz do tłumaczy.

CLARIN-PL to polskie konsorcjum naukowe, będące częścią ogólnoeuropejskiej infrastruktury badawczej CLARIN (Common Language Resources & Technology Infrastructure), udostepniającej zasoby językowe oraz elektroniczne narzędzia
do automatycznego przetwarzania języka, które mogą znaleźć zastosowanie w badaniach opartych na gromadzeniu i analizie dużych ilości tekstowych materiałów źródłowych.

Pierwsza część warsztatów będzie poświęcona wykorzystaniu narzędzi i zasobów językowych w pracach badawczych z zakresu nauk humanistycznych i społecznych. Zapraszamy pracowników naukowych do udziału w zajęciach, podczas których będą mogli zapoznać się m. in. z systemami do klasyfikacji tekstu, wspomagającymi tworzenie słowników dziedzinowych na podstawie tekstów oraz do badań związanych z nazwami własnymi i indeksami, które stanowią pomoc w pracach leksykograficznych. W zakres warsztatów wejdą takie zagadnienia, jak: gromadzenie i udostępnianie korpusów oraz możliwość wykorzystania narzędzi CLARIN-PL w pracy humanisty (przegląd narzędzi, zasobów i aplikacji – potencjalne zastosowania).

Druga grupa zagadnień dotyczy wykorzystania korpusów językowych (oraz ekstrakcji i analizy frazeologii z korpusów) w pracy tłumaczy. Przyjrzymy się m.in. bazie równoległych tekstów polskich i angielskich, uczestnicy poznają pojęcia ekwiwalencji frazeologicznej oraz sposoby zastosowania korpusów do jej weryfikacji.

Organizując pierwsze w Polsce warsztaty CLARIN-PL dla humanistów, liczymy na udział wszystkich naukowców, których interesuje wykorzystanie nowych metod, technik i narzędzi w praktyce badawczej. Wcześniejsza znajomość zagadnień z zakresu lingwistyki korpusowej nie jest wymagana. Dostęp do opracowanych narzędzi i zasobów językowych oraz wykorzystanie technologii językowych w naukach humanistycznych otwierają nowe ścieżki działań w badaniach literaturoznawczych i językoznawczych oraz w pracach leksykograficznych i translatologicznych.

Osoby zainteresowane udziałem w warsztatach prosimy o przesłanie zgłoszenia na adres aleksandra.wojtowicz@ibl.waw.pl do dnia 3 kwietnia 2015. Warsztaty będą miały charakter praktyczny, niezbędne zatem będzie przyniesienie własnych laptopów. Jeżeli chcecie Państwo uczestniczyć tylko w wybranych dniach warsztatów, proszę je wskazać w zgłoszeniu.

Liczba miejsc jest ograniczona, pierwszeństwo mają pracownicy ora współpracownicy IBL PAN i CLARIN-PL.

 

PROGRAM

Pałac Staszica, sala 144

PONIEDZIAŁEK 13 kwietnia

Infrastruktura naukowa

9.00 – 10.00 Wykład

Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Prowadzący: dr inż. Tomasz Walkowiak i dr inż. Maciej Piasecki

Centrum Technologii Językowych CLARIN-PL, uruchomione na Politechnice Wrocławskiej, jest węzłem ogólnoeuropejskiej infrastruktury CLARIN ERIC, skierowanej do badaczy nauk humanistycznych i społecznych. Celem wykładu jest przegląd usług udostępnianych użytkownikom przez CLARIN-PL oraz pokazanie, w jaki sposób mogą oni wykorzystać Centrum do deponowania i archiwizacji własnych zasobów językowych (np. korpusów, słowników). Omówione zostaną standardy metadanych stosowane w Centrum, a także system logowania w ogólnopolskiej federacji uwierzytelniania, gwarantującej bezpieczeństwo przechowywania danych i umożliwiającej logowanie na podstawie własnego konta z jednostki macierzystej (jeżeli przystąpiła ona do federacji).

Narzędzia korpusowe

10.00 – 10.45 Wykład

Gromadzenie, anotowanie i udostępnianie korpusów

Prowadzący: dr Marcin Oleksy i mgr inż. Jan Kocoń

Ważnym zadaniem Centrum Technologii Językowych CLARIN-PL jest przechowywanie i udostępnianie korpusów oraz dostarczenie narzędzi umożliwiających wygodne prace korpusowe. Podczas wykładu słuchacze zapoznają się z podstawowymi zagadnieniami dotyczącymi przechowywania w Centrum własnych korpusów, jak ustalenie odpowiedniej licencji, wybór właściwego formatu, opis metadanymi, możliwości przetwarzania i znakowania korpusów w systemie Inforex, czy wykorzystanie narzędzi do gromadzenia korpusów bezpośrednio ze źródeł internetowych.

W ramach zajęć warsztatowych uczestnicy samodzielnie zdeponują mały korpus testowy, wgrają go do systemu Inforex i poddadzą wstępnemu przetwarzaniu. Będą także anotować i przeszukiwać korpus (za pomocą systemu NoSketch) oraz wykonają statystyczną analizę anotacji i utworzą podstawowe listy frekwencyjne.

10.45-11.00 Przerwa na kawę

11.00 – 12.30 Warsztaty – Gromadzenie korpusów, anotowanie i udostępnianie

12.30 – 13.30 Wykład

Narzędzia do automatycznej analizy odniesień w tekstach

Prowadzący: dr inż. Michał Marcińczuk, mgr inż. Jan Kocoń

W ramach CLARIN-PL powstają narzędzia automatycznie rozpoznające w tekstach nazwy własne i wyrażenia określające relacje czasowe. Wykład poświęcony jest prezentacji tych narzędzi oraz kwestiom ich wykorzystania w automatycznym znakowaniu korpusów. Prowadzący pokażą, w jaki sposób przeglądać i poprawiać automatyczną anotację, jak zapisywać wyniki analizy, jak tworzyć słowniki najczęstszych wystąpień nazw własnych i wyrażeń czasowych.

Podczas warsztatów uczestnicy będą mogli wykorzystać zdobytą wiedzę do samodzielnej analizy korpusu testowego.

13.30 – 14.15 Przerwa obiadowa

14.15 – 15.45 Warsztaty – Narzędzia do automatycznej analizy odniesień w tekstach

15.45 – 16.15 Wykład

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Prowadzący: dr inż. Michał Marcińczuk

Język WCCL służy do formalnego opisu konstrukcji językowych i pozwala samodzielnie tworzyć reguły znakowania korpusów. Podczas wykładu zaprezentowany zostanie system WCCL Match Tester, który pozwala uruchamiać i testować reguły zapisane w języku WCCL.

W ramach warsztatów uczestnicy będą mieli możliwość napisać proste reguły znakowania, a następnie wypróbować je na korpusie testowym.

16.15-16.30 Przerwa na kawę

16.30 – 17.30 Warsztaty – Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

 

WTOREK 14 KWIETNIA

Narzędzia słownikowe

9.00 – 10.00 

Wykład

Słowosieć 3.0 – leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń

Prowadzący: dr Marek Maziarz, mgr inż. Paweł Kędzia, dr inż. Maciej Piasecki

Słowosieć 3.0 to leksykalna sieć semantyczna języka polskiego i największy jak dotąd tego typu słownik (wordnet) na świecie, mający liczne i rozmaite zastosowania. Podczas wykładu słuchacze zapoznają się ze sposobem opisu znaczeń leksykalnych w Słowosieci. Zaprezentowany zostanie system WordnetLoom, który służy do przeglądania i edycji Słowosieci, oraz narzędzia działające w oparciu o Słowosieć, umożliwiające wyznaczanie miar podobieństwa znaczeniowego i automatyczne ujednoznacznianie znaczeń słów występujących w tekście.

Uczestnicy warsztatów zainstalują aplikację WordnetLoom i za jej pomocą będą przeglądać Słowosieć. Na korpusie testowym zastosują narzędzia ujednoznaczniające, przeprowadzą analizę statystyczną rozpoznanych znaczeń i stworzą ich słownik frekwencyjny.

10.00 – 11.00 Warsztaty – Słowosieć 3.0

11.00 – 11.15 Przerwa na kawę

11.15 – 11.45 Wykład

Dwujęzyczna Słowosieć – możliwości wykorzystania w pracy tłumacza 

Prowadzący: dr Ewa Rudnicka

Znaczenia leksykalne w Słowosieci zostały połączone z odpowiadającymi im znaczeniami w sieci języka angielskiego – Princeton Wordnet. W ramach wykładu omówione zostaną różnice w sposobie opisu między obiema sieciami oraz przedstawiony zostanie system relacji międzyjęzykowych, wspierających pracę tłumacza. Podczas warsztatów uczestnicy zajmą się analizą konkretnych problemów tłumaczeniowych i spróbują je rozwiązać przy użyciu relacji międzyjęzykowych.

11.45 – 12.45 Warsztaty – Dwujęzyczna Słowosieć

12.45 – 13.30 Przerwa obiadowa

13.30 – 14.15 Wykład

Narzędzia do automatycznego wydobywania słowników związków frazeologicznych
i terminów

Prowadzący: mgr inż. Michał Wendelberger, dr Marek Maziarz

W ramach CLARIN-PL opracowane zostało narzędzie, które rozpoznaje w tekstach wielowyrazowe jednostki leksykalne: terminy i związki frazeologiczne. Umożliwia ono (pół)automatyczne tworzenie (na podstawie dostarczonych korpusów tekstu) słowników takich jednostek, opisanych pod względem leksykalno-składniowym i semantycznym.

Uczestnicy warsztatów nauczą się wydobywać jednostki wielowyrazowe z korpusu testowego i za pomocą dostępnego systemu stworzą własny słownik.

14.15 – 15.15 Warsztaty – Narzędzia do automatycznego wydobywania słowników związków frazeologicznych i terminów

15.15 – 15.30 Przerwa na kawę

15.30 – 16.30

Wykład

Korpusy referencyjne i równoległe w warsztacie tłumacza

Prowadzący: dr Piotr Pęzik

Korpusy stanowią ważny element warsztatu tłumacza, a ich nieustanny rozwój stwarza coraz lepsze możliwości zastosowań. W ramach wykładu przedstawione zostaną: Narodowy Korpus Języka Polskiego oraz powstały w ramach CLARIN-PL polsko-angielski korpus równoległy Paralela. Wyjaśnione zostaną pojęcia ekwiwalencji frazeologicznej: syntagma, frazem, translat.

Podczas warsztatów uczestnicy zapoznają się z działaniem wyszukiwarki SlopeQ dla NKJP oraz dowiedzą się, jak stosować korpusy NKJP i Paralela do weryfikacji ekwiwalencji frazeologicznej.

16.30 – 18.00 Warsztaty – Korpusy referencyjne i równoległe w warsztacie tłumacza

 

ŚRODA 15 kwietnia

Narzędzia do badań nad tekstem

9.00 – 9.45 Wykład

Możliwości wykorzystania narzędzi CL-PL w pracy humanisty. Przegląd narzędzi, zasobów i aplikacji – potencjalne zastosowania

Prowadzący: dr Marcin Woliński

Wykład poświęcony zostanie analizatorom morfologicznym, które stanowią podstawę przetwarzania tekstów, w tym nowym możliwościom analizatora Morfeusz. Zaprezentowana zostanie także dostępna infrastruktura do tworzenia słowników dziedzinowych.

9.45 – 11.15 Warsztaty

Prowadząca: dr Anna Andrzejczuk

W ramach warsztatów uczestnicy zapoznają się z narzędziem Kuźnia i przy jego pomocy samodzielnie stworzą własny słownik.

11.15 – 11.30 Przerwa na kawę

11.30 – 12.30 Wykład

System do klasyfikacji tekstu i analizy stylometrycznej

Prowadzący: dr hab. Maciej Eder, dr inż. Maciej Piasecki

W ramach CLARIN-PL powstał system, który wspiera badania stylometryczne poprzez automatyczną klasyfikację tekstów oraz ich semantyczną anotację i analizę. Umożliwia między innymi zastosowanie znanego systemu Stylo (Maciej Eder i Jan Rybicki) za pośrednictwem strony WWW.

Celem wykładu jest prezentacja elementów systemu (od wydobywania cech tekstu
po interpretację wyników analizy), wskazanie jego możliwości i ograniczeń oraz omówienie wybranych przykładów zastosowań.

Podczas zajęć warsztatowych uczestnicy wprowadzą do systemu przykładowy korpus, przeprowadzą analizy w oparciu o różne parametry i zinterpretują uzyskane wyniki. Przetestują także działanie przygotowanych wcześniej klasyfikatorów i przeanalizują cechy charakteryzujące zdefiniowane w tekstach klasy semantyczne.

12.30 – 13.30 Warsztaty – System do klasyfikacji tekstu i analizy stylometrycznej

13.30 – 14.15 Przerwa obiadowa

14.15 – 15.15 Wykład

Rejestr konwersacyjny – rzeczywistość i stylizacja na podstawie korpusu Spokes

Prowadzący: dr Piotr Pęzik

Korpus Spokes stanowi ważny zasób w badaniach nad rejestrem konwersacyjnym języka polskiego. Wykład poświęcony zostanie charakterystyce nieformalnej polszczyzny mówionej oraz wybranym aspektom stylistycznym na przykładzie formuł konwersacyjnych.

Uczestnicy warsztatów zapoznają się z wyszukiwarką Spokes (http://spokes.clarin-eu.pl)
oraz z metodami badań języka mówionego z wykorzystaniem danych korpusowych.

15.15 – 16.15 Warsztaty – Rejestr konwersacyjny

16.15 – 16.30 Przerwa na kawę

16.30 – 17.30 Wykład

Parsowanie składniowe i jego zastosowania

Prowadzący: dr Alina Wróblewska

Parsowanie składniowe, czyli automatyczna analiza składniowa zdań, jest jednym z kluczowych elementów automatycznego przetwarzania języka naturalnego.

Wykład zostanie poświęcony parsowaniu zależnościowemu i składnikowemu, możliwościom i ograniczeniom obu tych metod oraz zastosowaniu parserów składniowych w aplikacjach NLP i w badaniu zjawisk składniowych w tekstach. Podczas warsztatów uczestnicy będą mogli przetestować parser zależnościowy dla języka polskiego w serwisie http://multiservice.nlp.ipipan.waw.pl oraz zapoznać się z dostępnymi systemami parsującymi. Poznają także możliwości pracy z bankami struktur składniowych, takimi jak Składnica i bank struktur LFG.

17.30 – 18.30 Warsztaty – Parsowanie składniowe i jego zastosowania

Napisano w Wydarzenia