Przeskocz do treści

Korpus ślōnskij mŏwy – więcej szczegółów w temacie

15 grudnia 2017

Przypuszczam, że jednym z najlepszych przyjaciół części z Was jest na przykład British National Corpus. I że mimo wszystko, nigdy byście nie wpadli na to, że można zrobić Korpus ślōnskij mŏwy. Ja też na to nie wpadłam. Na szczęście ktoś na to wpadł.

Tym kimś jest Grzegorz Kulik, ostatnio lepiej znany ze swojego mistrzowskiego tłumaczenia „A Christmas Carol in Prose” na śląski, wydanej jako „Godniŏ Pieśń” przez wydawnictwo Silesia Progress. W poprzednim poście napisałam krótko, czym jest ten projekt i do czego ma służyć. Dziś, z nieocenioną pomocą właśnie Grzegorza, chcę rozwinąć ten temat.

Korpus to zbiór tekstów, które można szybko i łatwo przeszukiwać.
Programy do obsługi korpusów mają różne funkcje, lecz obecnie dla śląskiego korpusu bodaj najważniejsza jest funkcja konkordancji, czyli zestawienia wszystkich wystąpień danego słowa w korpusie. Można w ten sposób analizować terytorialność danego słowa, jego miejsce na osi czasu języka, czyli czy jest archaizmem, czy neologizmem. Możemy tworzyć tablice odmiany słów i wiedzieć, która odmiana jest najpopularniejsza. Możemy sprawdzać kontekst danego słowa, dzięki czemu można zapobiegać powstawaniu takich innowacji, jak używanie słowa „gryfny” w stosunku do rzeczy, choć było ono zawsze używane wyłącznie wobec ludzi.

Korpus ma funkcję poznawczo-weryfikacyjną. Jak twierdzi Grzegorz Kulik, niestety dotychaczasowe wydawnictwa dotyczące śląskiego to właściwie wyłącznie dyferencyjna leksyka bez kontekstu ani odmiany. Ten stan rzeczy powoduje, że następuje erozja systemu gramatycznego i pauperyzacja słownictwa, ponieważ osoby o niskich kompetencjach językowych nie potrafią odmieniać słów znalezionych w słownikach, a jednocześnie myślą, że tylko słownictwo zastane w słownikach jest słownictwem śląskim. W efekcie normalne śląskie słowa są zastępowane eufemizmami albo odpowiednikami z niższych rejestrów.

Teksty do korpusu Grzegorz Kulik zbiera od lutego 2017 roku. Część z nich uzyskał od autorów. Jednak większość tekstów sprzed XXI wieku trzeba było żmudnie przepisywać. Tak, tak, długie godziny spędzone przy klawiaturze… Teoretycznie oczywistym wyborem wydaje się użycie oprogramowania sczytujacego skanowany tekst, jednak każdy, kto miał do czynienia z programami do OCR, wie, jak one działają. Po pierwsze dawniejszy druk jest na tyle niewyraźny, że współczesne oprogramowanie sobie z nim nie radzi w stopniu pozwalającym w jakikolwiek sposób oszczędzić czas. Po drugie nie ma listy słów, z której takie oprogramowanie mogłoby korzystać w razie niepewności. Po trzecie teksty gwarowe są pisane alfabetem fonetycznym, który trzeba w jakiś sposób transkrybować. Z tym oprogramowanie też sobie nie poradzi. Więc Grzegorz przepisuje. Jak twierdzi, około 1/3 korpusu powstała do tej pory na jego klawiaturze. Korpus ma na dziś ponad 1,8 mln słowoform, a około 600 tys. słów przepisał sam!

Najstarszy tekst w korpusie pochodzi z 1574 roku. Jest nim list mieszczanina Ambrożego Szklorza z Olesna, który skarży się przed księciem, że bracia jego żony nie chcą jej wydać jej części spadku.

Pracować nad korpusem Grzegorz Kulik zaczął, gdy był w trakcie pracy nad autotranslatorem, który działa jak Google Translate, z tym, że tłumaczy z z języka polskiego na ślaski i odwrotnie. W trakcie prac doszedł do momentu, w którym trzeba było zaprogramować odmianę słów i podać prawdopodobieństwo ich występowania. Nie było tego jak zrobić. Zatrzymał zatem rozwijanie translatora, a zabrał się za tworzenie korpusu. Do opracowania translatora planuje wrócić, gdy korpus będzie opublikowany.

Korpus, kiedy zostanie opublikowany (podobno na wiosnę 2018 r.) jeszcze będzie się zmieniał. Jego rdzeń będzie stały, lecz będą dodawne kolejne teksty.

Ważna kwestia przy tworzeniu korpusu jest następująca: tekstów do wprowadzenia (przepisania) jest sporo. Oczywiste jest, że trudno to zrobić w jedną osobę. To niewyobrażalnie żmudne, praco- i czasochłonne zajęcie. Dlatego Grzegorz chciałby zebrać grupę osób, które pomogłyby w tej pracy. Żeby pomóc, wystarczy przepisać dwa artykuły tygodniowo. Nie potrzeba wyszkolenia lingwistycznego, tylko umiejętności przepisywania słowo w słowo. To jest osiągalne praktycznie dla każdego. Ja lada dzień zacznę w ty pomagac, ponieważ uważam, że jest to projekt absolutnie pionierski i wyjątkowy, tworzony po raz pierwszy, a byćmoże jedyny w historii Śląska.

Można skontaktowac się z nim przez Facebook, lub napisać do mnie na adres: odkrywajacslask@gmail.com, a pezekarzę do niego adres.

Powyżej widac zrzut ekranowy ze śląskiego korpusu. Wyszukane słowo „bieżać”, które było używane jako „biegać”.
Praktycznie wymarło na początku XX wieku. Dziś głównie mówimy „lotać”.
Obrazek udostępniono dzięki uprzejmości Grzegorza Kulika.

Na powyższym zrzucie widać miedzy innymi najwcześniejsze w korpusie poświadczenie słowa „bajtel” – z: Gawędy Stacha Kropiciela 1929.
Obrazek udostępniono dzięki uprzejmości Grzegorza Kulika.

A tak będzie wyglądał translator śląsko-polski.
Obrazek udostępniono dzięki uprzejmości Grzegorza Kulika.

Magdalena

Reklamy

From → Różne

3 Komentarze
  1. monika permalink

    Życzę mnóstwa sukcesów ale przede wszystkim dużo więcej profesjonalizmu , którego zabrakło Pani przy pisaniu posta „Na styku kultur” z 14 maja 2013. Rozumiem , że miłość do nowej „małej ojczyzny” mogła trochę zaślepić…ale żeby aż tak ? Granica dialektów małopolsko-śląskiego przebiega na ZACHÓD od Kęt, no chyba ,że to odkrycie , iż jako rodowita Kęcianka mówi Pani po śląsku to jakiś żart.
    PS Lachy sądeckie a nie Lasi , bebok i siedzenie w tej samej klasie -jak najbardziej krakowskie a co do wpływu Śląska na Małopolskę w najróżniejszych dziedzinach -pełna zgoda’

    • Tak, rzeczywiście, przy okazji rozmów o korpusie dowiedziałam się o formalnym zaliczeniu dialektu stosowanego w Kętach jednak do malopolskich.
      Jeżeli moge prosić, to proszę o wykaz źródel, w których można poczytać o pochodzeniu beboka, siedzeniu w tej samej klasie i dialektach, a chętnie się zapoznam. I mówię całkiem poważnie. Na dobre materiały wcale nie jest tak łatwo trafić, a widze, że ma Pani w tym temacie spora wiedzę.

Trackbacks & Pingbacks

  1. Korpus ślōnskij mŏwy – pomożecie? | Odkrywając Śląsk

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj /  Zmień )

Zdjęcie na Google+

Komentujesz korzystając z konta Google+. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )

Connecting to %s

%d blogerów lubi to: