Корпус славянских диалектов Албании


Добро пожаловать на главную страницу Корпуса славянских диалектов Албании.

О корпусе К поиску

Корпус славянских диалектов Албании

“Jazikot eje kaj čovekot. Eje zdraf, ako ese ljuditi zdravi. Eje živ, ako este i ljuditi živi. Umbri čoveko, umbri i jaziko. Mjene mi grjej žl’e ščo jaziko naš umbre. Toko umbreje i ljuditi, i koj ža zborvi? Nema koj da zborvi...”

«Язык как человек. Он здоров, если люди здоровы. Он жив, пока люди живы. Умирает человек, умирает и язык. Мне жаль, что наш язык умер. Но умерли и люди, и кому теперь [на нашем языке] разговаривать? Некому разговаривать...»

Основные параметры корпуса:

диалектсёлагородаразмер, тыс. словне считая реплик лингвистовморфологический анализ
македонский (Корча)БобоштицаКорча34,0Classla 2.1.1 для македонского языка, выборочно отредактирован вручную
македонский (Преспа)Пустец, Горна-Горица, Долна-Горица, ШулинЭльбасан, Корча171,3Classla 2.1.1 для македонского языка, выборочно отредактирован вручную
македонский (Голлоборда)Требишт, Вэрница, МалестрениДуррэс, Эльбасан, Тирана239,7Classla 2.1.1 для македонского языка, выборочно отредактирован вручную
штокавский (Мюзекея)Ррет-Либофша, ПетоваФиер58,8Classla 2.1.1 для сербохорватского, выборочно отредактирован вручную
штокавский (Шияк)Боракя, КоджасШияк, Сукт68,8Classla 2.1.1 для сербохорватского, выборочно отредактирован вручную
албанскийВсе вышеперечисленноеВсе вышеперечисленное34,7uniparser-albanian
Другие языки: болгарский, английский, французский, немецкий, греческий, BCMS, итальянский, русский, турецкий4,5не анализировалось
Общий611,8

Предыдущие исследования славянских диалектов Албании

После монографии «Славянское население Албании» А.Н. Селищева (1931) вышло довольно много публикаций по славянским диалектам Албании (далее — СДА), которые описывали как историю славяноязычного населения в этой стране (например, монография Дж. Юлли (1997, 2000) о славянских заимствованиях в албанской топонимике), так и его современное состояние (Bojović 1991; Tončeva 2014; Vidoeski 1998). Наибольшее значение имеет четырехтомный труд «Die slavischen Minderheiten in Albanien» К. Штайнке и Дж. Юлли (2007, 2008, 2010, 2013), написанный и опубликованный при поддержке Немецкого научного общества (DFG) в 2002-2011 гг.

В этих и других публикациях (см. ниже) содержатся грамматические очерки СДА, описания современного состояния соответствующих сообществ, а также расшифровки диалектных записей.

Настоящий проект — далеко не первое исследование СДА, но мы рассмотрели также ранее никогда не изучавшиеся идиомы, такие как славянская речь переселенцев в албанских городах и штокавский переселенческий диалект Мюзекеи.

Выбранные идиомы

Названия идиомов, включенных в корпус, не связаны с национальной, этнической или любой иной идентичностью их носителей и даются исключительно для ориентирования в рамках соответствующих диалектологических традиций. Это также не обязательно те же самые названия, которые использовали сами носители. Нужно отметить, что многие носители никак не определяют идиом, на котором говорят. Многие другие, наоборот, могут использовать сразу несколько разных названий (часто взаимоисключающих). Языковой вопрос у некоторых этноязыковых групп Албании глубоко политизирован, но настоящий корпус, как и проект в целом, не имеет целью определить «единственно верную» этнополитическую аффилиацию этих групп и не является проводником интересов каких бы то ни было государств, политических организаций, партий, объединений отдельных лиц и т.д. Обозначения идиомов во внешних источниках приводятся здесь в соответствии с оригиналом и исключительно для удобства ориентирования пользователей.

В проект были включены пять славянских диалектов Албании. Они указаны на этой карте Google.

Македонский (Голоборда)

Голобордский македонский диалект — периферийный балканский славянский диалект, который продолжает западно-македонские дебарские диалекты на территории Албании. На нем говорят жители 15 сёл в албанских регионах Дибра и Эльбасан, а также переселенцы таких городах как Дуррэс, Тирана и Эльбасан, общим количеством более чем 7000 человек. Сельская часть этого сообщества в материнском ареале (собственно Голоборда) была тщательно изучена группой исследователей из Института лингвистических исследований РАН, Санкт-Петербургского государственного университета и Музея антропологии и этнографии Петра Великого (Кунсткамера). Результатом их исследований стала важная монография, переведенная также на албанский и македонский языки. Отметим, что наше корпусное исследование было сосредоточено на социолингвистической вариации и языковых изменениях этого диалекта в разных контактных ситуациях (напр., в городских или в сельских условиях). Таким образом, наши проблематика и методология значительно отличаются от исследований наших коллег из Санкт-Петербурга.

Избранная литература: Steinke & Ylli (2008); Sobolev & Novik (2013, 2017, 2018).

Македонский (Корча)

Македонский диалект района Корчи в Юго-Восточной Албании — это предположительно вымерший балканославянский островной диалект (структурно близкий к юго-восточному македонскому наречию). Корпус включает образцы речи последних шести носителей (трое из которых жили в селе Бобоштица, а трое, родом из с. Дренова — в самом городе Корча). Несмотря на малый размер сообщества, македонский диалект района Корчи имел важное значение для проекта, так как он подвергся самому длительному и интенсивному албанскому влиянию.

Избранная литература: Mazon (1936); Mazon & Filipova-Bajrova (1965); Steinke & Ylli (2007).

Македонский (Преспа)

Македонский диалект албанской части Преспы — периферийный балканский славянский диалект, переходный к юго-восточному македонскому, продолжающий западно-македонские охридско-преспанские диалекты с албанской стороны Большого Преспанского озера. Количество говорящих оценивается примерно в 4500 человек в девяти деревнях региона и двух крупных городах, находящихся вне его (Корча и Билишт).

Избранная литература: Steinke & Ylli (2007); Cvetanovski (2010).

Штокавский (Мюзекея)

На этом островном штокавском диалекте говорят в нескольких кварталах г. Фиер и нескольких сёлах вокруг города недавние (1920-е годы) переселенцы из региона Санджак (новопазарско-сьеницкий диалект зетско-сьеницкой диалектной зоны), находящегося в сербско-черногорском пограничье.

Избранная литература: Makartsev & Kikilo (2022); Makartsev (2023).

Штокавский (Шияк)

На этом островном штокавском диалекте говорят в селе Боракя и его селе-спутнике Коджас относительно недавние (с 1880-х годов) переселенцы из области Мостара в современной Боснии и Герцеговине (центральный герцеговинский поддиалект восточно-боснийской диалектной зоны, треугольник Мостар—Чаплина—Столац). Общее количество носителей — 150 до 220 семей в обеих деревнях, также в городах Шияк и Сукт.

Избранная литература: Steinke & Ylli (2013); Makartsev & Kikilo (2022); Makartsev (2023).

Социолингвистическое разнообразие СДА

Перечисленные диалекты имеют различную степень структурной близости с албанским в силу своего разного положения по отношению к балканскому языковому союзу. Структурно наиболее близки к албанскому балканославянские диалекты Корчи, Голлоборды и Преспы. Штокавские диалекты Мюзекеи и Шияка не входят в балканский языковой союз и имеют меньшую структурную близость с албанским.

Выбранные диалекты не представляют все СДА (один из наиболее полных списков можно найти в монографии Штайнке и Юлли), однако они содержат многообразие элементов и параметров, которые обуславливают разнообразие славянской речи в этой стране.

Два из диалектов являются штокавскими (Мюзекея и Шияк), но их носители имеют разные этнополитические и языковые ориентации. Наши собеседники в Шияке обычно подчеркивали свою бошняцкую идентичность, а в Мюзекее — или сербскую, или бошняцкую. Остальные три диалекта — балканославянские (Голоборда, Корча, Преспа). Ориентация носителей этих диалектов на стандартный язык (македонский или болгарский) обычно индивидуальна. Этнополитические и языковые самоопределения, которые в разное время высказывали наши собеседники, мы интерпретируем не как политические высказывания, а как указания на возможную ориентацию на тот или другой южнославянский литературный язык, которые предположительно влияют на диалектную речь.

Четыре сообщества имеют сельский (более консервативный) и городской (менее консервативный) центр (за исключением македонского региона Корчи, количество носителей которого не позволило нам проследить эту оппозицию). Для Шияка релевантным фактором является то, связана ли трудовая деятельность наших собеседников с национальной автомагистралью Тирана-Дуррэс, проходящей в нескольких сотнях метрах от с. Боракя, поскольку в этом случае они ежедневно контактируют с водителями трейлеров, которые говорят на постсербохорватских идиомах. Оппозицию между селом и городом для Шияка проследить нельзя, поскольку носители живут довольно компактно, городки Сукт и Шияк имеют небольшой размер (и также находятся в пешей доступности), а крупный портовый город Дуррэс, в котором работают многие носители, также находится слишком близко, чтобы в нём сформировалась отдельное урбанизированное речевое сообщество.

Религия — еще один возможный фактор, который может влиять на выбор языковой идентичности (см. лингвоконфессиональную ситуацию в Боснии и Герцеговине и в мусульманских штокавских регионах Черногории и Сербии). Кроме того, религия определяет многие черты традиционной культуры. Все наши собеседники из Мюзекеи и Шияка в плане традиционной культуры принадлежат к суннитскому исламу. Из балканославянских языковых сообществ Корча и Преспа культурно принадлежат к православному христианству, а Голоборда имеет гетерогенную конфессиональную принадлежность с преобладанием суннитского ислама.

Темы наших интервью

ТемаТипБиблиографическая ссылка
1. Нарративы и меморатыНеструктурированный
2. Этнографические и этнолингвистические интервью:
- 2.1. Календарь, обряды перехода (рождение, брак, смерть), демонология Полуструктурированный (Плотникова 2009; см. интернет-публикацию)
- 2.2. Обряды и верования, связанные с луной Полуструктурированный (Чёха 2009)
- 2.3. Обряды и поверья, связанные с кукушкой Полуструктурированный (Макарцев 2017)
3. Frog where are you? (Berman et al. 1994–2004; Mayer 1969; см. предварительный просмотр)
- 3.1. Проведено исследователями Картинки
- 3.2. Проведено обученными местными помощниками Картинки
4. Семейные разговоры Неструктурированный (Hentschel & Zeller 2013)

Нарративы и мемораты (T. 1) представляли собой неструктурированные беседы, посвященные устной истории и текущим проблемам данного сообщества. Они также давали представление об идентичности и политике памяти сообщества. Интервью проводились исследователями.

Этнографические и этнолингвистические интервью (Т. 2) проводились исследователями с целью сбора этнографической и этнолингвистической информации. Они включали ответы на вопросы по различным аспектам традиционной культуры. В основном мы следовали структуре вопросников (или дизайну интервью), указанных в таблице, с небольшими адаптациями.

«Лягушка, где ты?» (Т. 3) — книжка в картинках (всего 24 штуки), которые объединяются в связный визуальный нарратив. Книжка была использована как опросник, который подразумевал минимальное участие исследователя. Мы также просили наших обученных местных помощников записывать себя или своих родственников и друзей, отвечающих на эту анкету. Собранные таким образом материалы приближены к живому использованию языка.

Семейные разговоры (T. 4) были организованы нашими обученными местными помощниками в наше отсутствие. Целью была запись спонтанной речи, поэтому здесь носители могли не придерживаться каких-либо определенных тем. Поскольку эти же помощники затем расшифровывали записи разговоров, они могли опустить любые разделы, которые содержали потенциально опасную информацию или могли быть использованы для идентификации говорящих.

Сбор такого рода данных оказался наиболее успешным с носителями диалекта Голоборды, поскольку там у нас сложилась целая сеть обученных местных помощников, на которых мы могли положиться.

Нам удалось организовать несколько семейных разговоров среди носителей диалекта Преспы и всего одну семейную беседу с носителями штокавского в Шияке. Для штокавского в Мюзекее организация семейных переговоров пока не увенчалась успехом. В Корче такие разговоры организовать было невозможно, поскольку на момент проведения исследования диалект не использовался в повседневной коммуникации между носителями как минимум несколько десятилетий, хотя они всё еще могли общаться на нем с нами. Слова, выбранные в качестве эпиграфа, были произнесены одним из носителей этого диалекта (Dre01) и свидетельствуют о тяжелых эмоциях, которые вызывало у него исчезновение родного диалекта.

Говорящие

Наши говорящие делятся на три основные категории:

1) Носители соответствующих СДА — анонимизированы, вся информация, которая могла быть использована для их идентификации, была вручную удалена из корпуса (помечена как ((ERASED))). Все носители были обозначены индексами, состоящими из трех букв (для населенного пункта) и двух цифр. Мы также ссылаемся на них по этим индексам в публикациях на основе корпуса.

2) Исследователи. Указаны только с помощью буквенных индексов. Их имена приведены в разделе «Благодарность».

3) SPK. Это сокращение использовалось для обозначения всех остальных говорящих, чья речь была расшифрована для контекста, но не получила морфологической разметки по разным причинам (это мог быть неизвестный сосед, который проходил мимо во время записи и поздоровался; албаноязычный официант в деревенском кафе; неопознанные голоса на заднем плане и т.п.).

Посмотреть список говорящих

Индекс Пол Статус Год рождения Место рождения Место проживания Диалект Образование Владение другими языками Члены семьи Профессия Комментарии Количество законченных классов
AC f researcher 1990 Shahty Moscow Ph.D. Macedonian, Albanian researcher
AL m researcher 1988 Moscow Moscow Ph.D. Bulgarian, Turkish, English researcher
AV f researcher 1986 Hyvinkää Oulu MA Croatian, English researcher
Bob01 f native 1936 Boboshtica Boboshtica Boboshtica professional Albanian teacher of Albanian
Bob02 m native 1925 Boboshtica Boboshtica Boboshtica higher Albanian engineer higher education in Charles University in Prague
Bob03 m native 1930 Boboshtica Boboshtica Boboshtica professional Albanian teacher
Bor01 f native 1999 Borake Borake Borake higher (unfinished) Albanian bride of Bor02 student
Bor02 f native 1990 Borake Borake Borake middle Albanian brother of Bor11, son of Bor12 port worker
Bor04 m native 1935 Borake Borake Borake middle school (unfinished) Albanian port worker Classes graduated: 3 grades elementary, 1 grade school for tractors 4 grades
Bor06 f native 1926 Borake Borake Borake middle school (unfinished) Albanian grandmother of Bor19 farmer 3 grades
Bor07 f native 1935 Borake Borake Borake middle school (unfinished) Albanian father's sister-in-law of Bor19 farmer 3 grades
Bor08 m native 1984 Borake Zagreb Croatian higher Albanian IT
Bor10 m native 1947 Borake Borake Borake professional Albanian father of Bor09, Bor19 and Bor23, brother of Bor12 teacher of maths and Bosnian language at school
Bor11 m native 1979 Borake Borake Borake middle Albanian brother of Bor02, son of Bor12 worker
Bor12 m native 1950 Borake Borake Borake middle Albanian father of Bor11 and Bor02, husband of Bor25 worker
Bor15 m native 1957 Borake Sukth Borake middle Albanian father of Bor24 musician
Bor16 m native 1949 Borake Sukth Borake middle Albanian father of Bor18, husband of Bor17 worker, builder mother born in Potkosa, Domanovići
Bor17 f native 1949 Borake Sukth Borake middle Albanian mother of Bor18, wife of Bor16 farmer
Bor18 m native 1969 Borake Sukth Borake middle Albanian son of Bor16 and Bor17 port worker
Bor19 f native 1987 Borake Zagreb Borake higher Albanian teacher of English, nurse
Bor20 m native 1920 Borake Borake Borake middle school (unfinished) Albanian farmer 3 grades
Bor21 m native 1945 Borake Borake Borake middle school (unfinished) Albanian son of Bor22 farmer 7 grades
Bor22 m native 1920 Borake Borake Borake middle school (unfinished) Albanian father of Bor21 farmer 3 grades
Bor23 f native 1977 Borake Borake Borake higher Albanian teacher of biology and chemistry at school
Bor24 m native 1983 Borake Borake Borake middle Albanian son of Bor15 musician
Bor25 f native 1950 Borake Borake Borake middle school (unfinished) Albanian wife of Bor12 farmer 3 grades
Bor26 f native 1950 Borake Borake Borake middle school (unfinished) Albanian daughter of Bor04 farmer 3 grades
Bor27 f native 1940 Sukth Borake Borake middle Albanian wife of Bor04 farmer
Bor28 m native 1947 Borake Sukth Borake middle Albanian car master, hotel owner
Bor29 m native 1980 Borake Sukth Borake middle Albanian son of Bor28 waiter
Bor30 f native 1950 Sukth Sukth Borake middle Albanian wife of Bor28? cook she is Albanian, but has learnt the Borake dialect "in three months" after she got married
Bor32 f native 1938 Borake Borake Borake middle school (unfinished) Albanian farmer 7 grades
Bor33 f native 1972 Borake Durres Borake middle school (unfinished) Albanian trader 8 grades
Dre01 m native 1934 Drenova Korça Boboshtica higher Albanian brother of Dre02 and Dre03 teacher of maths
Dre02 f native 1927 Drenova Korça Boboshtica middle Albanian sister of Dre01 and Dre03 housewife
Dre03 m native 1922 Drenova Korça Boboshtica middle Albanian brother of Dre01 and Dre02 farmer
EU f researcher 1968 Moscow Moscow Ph.D. Bulgarian researcher
Elb01 m native 1995 Elbasan Elbasan Golloborda middle Albanian family from Stebleva
Elb02 m native 1979 Cerrik Cerrik Albanian middle Greek husband of Tre30, father of Tre31, Tre32, Tre29 builder
Erb01 f native 1975 Erbele Tirana Golloborda higher Albanian housewife
Tre80 m native Elbasan Albanian Only speaks Albanian
Gji01 f native 1970 Gjinovec Elbasan Golloborda middle Albanian
Gll01 m native 1943 Glloboçani Glloboçani Prespa middle Albanian farmer, worker
Gll02 m native 1958 Glloboçani Glloboçani Prespa professional Albanian administrator
Gor01 f native 1946 Shulin Gorna Gorica Prespa middle Albanian farmer
Gor02 m native 1952 Gorna Gorica Gorna Gorica Prespa middle Albanian farmer
Gor03 m native 1995 Gorna Gorica Gorna Gorica Prespa middle Albanian beekeeper
Gor05 f native 1955 Gorna Gorica Elbasan Prespa higher Albanian nurse left Prespa in 1973
Gor06 m native 1970 Gorna Gorica Gorna Gorica Prespa middle Albanian farmer
Gor07 m native 1948 Gorna Gorica Gorna Gorica Prespa middle school (unfinished) Albanian church administrator 7 grades
Gor08 m native 1970 Gorna Gorica Gorna Gorica Prespa middle Albanian political administrator
Gor09 m native 1960 Gorna Gorica Gorna Gorica Prespa middle Albanian businessman
Gor10 f native 1952 Gorna Gorica Gorna Gorica Prespa middle Albanian
Gor11 m native 1966 Gorna Gorica Gorna Gorica Prespa middle Albanian beekeeper
Gor12 f native 1966 Gorna Gorica Gorna Gorica Prespa middle Albanian father of Gor03, husband of Gor12 beekeeper
Gor13 m native 1935 Gorna Gorica Gorna Gorica Prespa middle school (unfinished) Albanian farmer
Gor14 m native 1965 Gorna Gorica Korça Prespa middle school (unfinished) Albanian 8 grades
Ham01 m native 1970 Hamil Fier Fier higher Albanian cousin of Rre04 lawyer mother from Bjelo Pole
Ham02 m native 1965 Hamil Hamil Fier middle Albanian son of Pet01 businessman
Kle01 f native 1982 Klenje Elbasan Golloborda middle Albanian
Kle02 m native 1977 Klenje Tirana Golloborda higher Albanian moved to Tirana in 1997
Kle04 m native 1983 Klenje Elbasan Golloborda middle Albanian hoxha moved to Elbasan in 2004
Kor01 m native 1972 Korça Korça Prespa (Tuminec) higher Albanian teacher lives in Korca from 1990
Kor02 m native 1969 Korça Pustec Prespa higher Albanian teacher
Kor03 m native 1969 Korça Pustec Prespa higher Albanian teacher
Lesh02 m native 1957 Leshnicani Elbasan Golloborda professional Albanian worker moved to Elbasan in 1963
Lesh03 m native 1932 Leshnicani Elbasan Golloborda middle Albanian farmer left Trebisht in 1944, moved to Durrës
Lesh04 m native 1963 Leshnicani Elbasan Golloborda middle Albanian worker
Lesh05 m native 1967 Leshnichani Tirana Golloborda middle Albanian businessman, worker
Lesh06 m native 1969 Leshnichani Tirana Golloborda middle Albanian worker
Lesh07 f native 1967 Leshnichani Fushë Kruja Golloborda middle Albanian daughter of Lesh05
Lesh08 m native 1952 Elbasan Elbasan Golloborda middle Albanian son of Lesh03
Lesh09 f native 1952 Elbasan Elbasan Albanian middle Albanian wife of Lesh09 Albanian speaker, origin from Trebishta
Lesh10 f native 1972 Elbasan Elbasan Albanian middle Albanian daughter of Lesh09 and Lesh10
Lla01 m native 1948 Lladimerica Elbasan Golloborda middle Albanian
Lla02 f native 1938 Lladimerica Tirana Golloborda middle school (unfinished) Albanian 4 grades
MC m researcher 1991 Moscow Moscow Ph.D. Macedonian, English researcher
MM m researcher 1984 Moscow Oldenburg Ph.D. Albanian, Macedonian, BCMS, English researcher
MMI f researcher Sofia Calgary higher Albanian, English researcher
Mal02 m native 1955 Malestreni Tirana Golloborda middle Albanian military
Mal04 m native 1984 Malestreni Tirana Golloborda higher Albanian researcher
NK f researcher 1992 Železnogorsk Moscow Ph.D. Macedonian, BCMS researcher
NM f researcher 1995 Altdorf Zürich high school English, Macedonian researcher
Non01 all non-transcribed speakers
Ost01 f native 1975 Ostren Elbasan Golloborda middle Albanian
Ost02 f native 1974 Ostreni Elbasan Golloborda middle Albanian
Pet01 f native 1940 Petovë Hamil Fier middle school (unfinished) Albanian aunt of Rre04 farmer 4 grades
Pus01 f native 1995 Pustec Pustec Prespa higher Albanian vnu'če od zo'lva of Pus09, daughter-in-law of Pus23 teacher of sports at school
Pus03 f native 1969 Pustec Korça Prespa middle Albanian trader
Pus04 m native 1953 Pustec Pustec Prespa middle Albanian political administrator, journalist, writer
Pus05 f native 1965 Pustec Pustec Prespa middle Albanian farmer
Pus06 m native 1983 Pustec Pustec Prespa higher Albanian political administrator, historian, higher education in Skopje
Pus08 f native 1960 Pustec Pustec Prespa middle Albanian farmer
Pus09 f native 1960 Pustec Pustec Prespa middle Albanian posestrima of Pus24 farmer
Pus11 m native 1960 Pustec Pustec Prespa middle Albanian farmer
Pus12 m native 1970 Pustec Pustec Prespa middle Albanian teacher
Pus13 f native 1960 Pustec Pustec Prespa middle Albanian
Pus14 m native 1935 Pustec Pustec Prespa middle Albanian
Pus15 m native 1960 Pustec Pustec Prespa middle Albanian farmer
Pus16 m native 1978 Pustec Korça Prespa higher Albanian teacher of MK graduated in Skopje
Pus17 f native 1990 Korça Pustec Prespa middle Albanian wife of Pus18 farmer
Pus18 m native 1990 Pustec Pustec Prespa middle Albanian husband of Pus17
Pus19 m native 1970 Pustec Pustec Prespa middle Albanian father of Pus18? farmer
Pus20 f native 1950 Pustec Pustec Prespa middle Albanian farmer
Pus21 f native 1950 Pustec Pustec Prespa middle Albanian farmer
Pus23 f native 1943 Gorna Gorica Pustec Prespa middle school (unfinished) Albanian mother-in-law of Pus01 farmer 3 grades
Pus24 f native 1973 Pustec Pustec Prespa middle Albanian posestrima of Pus09
Rre01 m native 1968 Rreth Libofsha Rreth Libofsha Fier middle Albanian son of Rre02 and Rre03 businessman
Rre02 m native 1942 Rreth Libofsha Rreth Libofsha Fier middle Albanian husband of Rre04, father of Rre01 farmer father from Bujca
Rre03 f native 1945 Rreth Libofsha Rreth Libofsha Fier middle Albanian wife of Rre02, mother of Rre01 farmer mother from Jaˋblanica, father from Donane
Rre04 m native 1957 Rreth Libofsha Rreth Libofsha Fier middle Albanian general worker
Rre06 m native 1951 Rreth Libofsha Fier Fier middle Albanian businessman
Pus22 m native 1980 Pustec Pustec Prespa higher Albanian political administrator
Ste01 m native 1975 Stebleva Elbasan Golloborda middle Albanian
Ste02 f native 1942 Stebleva Elbasan Golloborda middle Albanian
Ste03 m native 1971 Stebleva Elbasan Golloborda middle Albanian
Ste04 m native 1968 Stebleva Elbasan Golloborda middle Albanian
Ste05 f native 1972 Stebleva Elbasan Golloborda middle Albanian
Ste07 m native 1962 Stebleva Elbasan Golloborda middle Albanian
TG f researcher 1983 Magadan Moscow Ph.D. Macedonian, BCMS researcher
Tir01 m native 1960 Tirana Tirana Golloborda middle Albanian trader
Tir02 f native 2009 Fushë Kruja Fushë Kruja Golloborda none Albanian daughter of Lesh07 preschool student
Tre01 f native 1946 Trebisht Trebisht Golloborda middle Albanian mother of Tre20, Tre27, Tre30 farmer
Tre02 m native 1964 Bulqiza Tirana Golloborda professional Albanian military family from Trebishta, born in Bulqiza
Tre03 f native 1956 Trebisht Trebisht Golloborda middle Albanian mother of Tre19 farmer
Tre04 m native 1936 Trebisht Trebisht Golloborda middle Albanian farmer
Tre05 f native 1936 Trebisht Trebisht Golloborda middle Albanian farmer
Tre07 m native 1994 Trebisht Trebisht Albanian middle Albanian farmer
Tre10 m native 2016 Trebisht Trebisht Golloborda middle Albanian son of Tre11 farmer
Tre11 f native 1991 Trebisht Trebisht Golloborda middle Albanian daughter of Tre17 farmer has been living in Croatia for the last 2-3 years
Tre12 f native 1944 Trebisht Trebisht Golloborda middle Albanian farmer
Tre13 f native 2003 Trebisht Trebisht Golloborda middle Albanian farmer
Tre14 m native 1968 Trebisht Trebisht Golloborda middle Albanian farmer
Tre15 f native 1970 Trebisht Elbasan Golloborda middle Albanian housewife
Tre17 f native 1963 Trebisht Trebisht Golloborda middle Albanian farmer
Tre18 f native 2005 Trebisht Trebisht Golloborda middle Albanian school student
Tre19 m native 1977 Trebisht Trebisht Golloborda none Albanian builder
Tre20 f native 1977 Trebisht Trebisht Golloborda middle Albanian sister of Tre27, Tre30, daughter of Tre01 housewife
Tre21 m native 2006 Trebisht Trebisht Golloborda middle school student Albanian school student
Tre22 f native 2003 Trebisht Trebisht Golloborda middle school student Albanian school student
Tre24 f native 2003 Trebisht Trebisht Golloborda middle school student Albanian school student
Tre25 m native 1996 Trebisht Trebisht Golloborda higher (unfinished) Albanian student
Tre27 m native 1970 Trebisht Trebisht Golloborda middle Albanian, Greek, BCMS brother of Tre20, Tre30, son of Tre01 general worker
Tre29 m native 2006 Trebisht Trebisht Golloborda middle school student Albanian son of Tre30 and Elb02, brother of Tre31 and Tre32 school student
Tre30 f native 1980 Trebisht Cerrik Golloborda middle Albanian sister of Tre27, Tre20, daughter of Tre01, wife of Elb02, mother of Tre31, Tre32, Tre29 housewife
Tre31 f native 2002 Trebisht Elbasan Golloborda higher (unfinished) Albanian daughter of Tre30 and Elb02, sister of Tre32 and Tre29 school student going to school in Ohrid
Tre32 f native 2002 Trebisht Trebisht Golloborda higher (unfinished) Albanian daughter of Tre30 and Elb02, sister of Tre31 and Tre29 school student going to school in Ohrid
Tre33 m native 1956 Trebisht Elbasan Golloborda middle Albanian
Tre34 f native 1959 Trebisht Elbasan Golloborda middle school (unfinished) Albanian 4 grades
Tre35 m native 1947 Trebisht Elbasan Golloborda middle Albanian
Tre37 f native 1948 Trebisht Elbasan Golloborda middle Albanian
Tre38 m native 1984 Trebisht Trebisht Golloborda middle Albanian works in Croatia and Germany
Tre39 m native 1955 Tirana Tirana Golloborda middle Albanian father from Vërnica, mother from Malestreni. Family moved to Tirana in 1954
Tre40 f native 1957 Përmet Tirana Golloborda middle Albanian parents are from Përmet
Tre41 m native 1930 Trebisht Tirana Golloborda higher Albanian
Tre42 m native 1960 Trebisht Tirana Golloborda middle Albanian
Tre43 m native 1991 Tirana Tirana Golloborda middle Albanian Born and raised in Tirana, now lives in Tirana, speaks AL at home
Tre44 m native 1996 Tirana Tirana Golloborda middle Albanian Born and raised in Tirana, now lives in Tirana, speaks AL at home
Tre45 m native 1966 Trebisht Elbasan Golloborda middle Albanian Born and raised in Trebisht, now lives in El, speaks AL at home
Tre46 m native 1990 Trebisht Trebisht Golloborda middle Albanian
Tre47 m native Trebisht Trebisht Golloborda Albanian
Tre48 f native 1989 Trebisht Trebisht Golloborda middle Albanian
Tre49 f native 2011 Trebisht Trebisht Golloborda middle school student Albanian
Tre50 f native 2014 Trebisht Trebisht Golloborda middle school student Albanian
Tre51 m native 2006 Trebisht Fushë Kruja Golloborda middle school student Albanian
Tre52 m native 1967 Cerrik Cerrik Golloborda middle Albanian husband of Tre53
Tre53 f native 1967 Trebisht Cerrik Golloborda middle Albanian wife of Tre52 moved in 1993 to Cerrik because of her marriage to Tre52
Tre54 f native 2001 Cerrik Cerrik Golloborda higher Albanian
Tre55 f native 1949 Elbasan Trebisht Golloborda middle school (unfinished) Albanian 7 grades
Tre56 f native Trebisht Tirana Golloborda Albanian
Tre57 m native 2015 Trebisht Tirana Golloborda middle school student Albanian
Tre59 f native 1999 Tirana Tirana Golloborda student Albanian
Tre60 m native 1949 Trebishta Tirana Golloborda middle school (unfinished) Albanian 7 grades
Tre61 f native 1952 Trebishta Tirana Golloborda middle school (unfinished) Albanian 7 grades
Tre62 f native 1971 Trebishta Elbasan Golloborda middle Albanian
Tre63 m native 1938 Trebishta Elbasan Golloborda middle Albanian
Tre64 m native Trebishta Elbasan Golloborda middle Albanian
Tre65 m native 1940 Trebishta Elbasan Golloborda middle school (unfinished) Albanian
Tre66 m native Trebishta Elbasan Golloborda Albanian
Tre67 m native 2007 Trebishta Tirana Golloborda middle school student Albanian
Tre68 m native 2008 Trebishta Tirana Golloborda middle school student Albanian
Tre69 f native 1964 Elbasan Elbasan Golloborda middle Albanian
Tre71 f native Trebisht Tirana Golloborda Albanian
Tre72 m native 2001 Trebishta Trebishta Golloborda higher Albanian student in Skopje
Tre73 f native 1972 Trebishta Trebishta Golloborda middle Albanian
Tre75 m native 1964 Trebishta Trebishta Golloborda middle Albanian
Tre76 m native 1992 Elbasan Trebishta Golloborda middle Albanian moved to Trebishta in 2003
Tre77 m native 1996 Trebishta Trebishta Golloborda middle Albanian graduated in Prilep
Tum01 m native 1956 Tuminec Tuminec Prespa (Tuminec) middle Albanian
Tum02 f native 2015 Tuminec Tuminec Prespa (Tuminec) preschool
Tum03 f native 1994 Tuminec Pustec Prespa (Tuminec) higher Albanian
Tum04 f native 1952 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian 2 grades
Tum05 f native 1977 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian 8 grades
Tum06 m native 1939 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian brother of Tum07, husband of Tum08 musician
Tum07 f native 1954 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian wife of Tum06
Tum08 f native 1940 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian sister of Tum06
Tum09 m native 1984 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian 7 grades
Tum10 m native 1964 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian 7 grades
Tum11 f native 1964 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian mother of Tum09 7 grades
Tum12 m native 1964 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian father of Tum09 5 grades
Tum13 f native 1964 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian 7 grades
Tum14 m native 2000 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian 7 grades
Tum15 m native 1940 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian cousin of Tum06, father of Tum16 farmer 7 grades
Tum16 m native 1960 Tuminec Tuminec Prespa (Tuminec) middle Albanian son of Tum15
Tum17 m native 1955 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian 7 grades
Tum18 f native 1931 Tuminec Tuminec Prespa (Tuminec) middle school (unfinished) Albanian 3 grades
Tum19 m native 1999 Elbasan Korça Prespa (Tuminec) middle Albanian
Tum20 m native 1947 Tuminec Korça Prespa (Tuminec) middle school (unfinished) Albanian
Tum21 f native 1952 Tuminec Korça Prespa (Tuminec) middle school (unfinished) Albanian
Tum22 f native 2010 Elbasan Korça Prespa (Tuminec) middle school student Albanian
Tum23 f native 1970 Tuminec Tuminec Prespa (Tuminec) middle Albanian vujna of Tum19, Kor01 farmer
Vor02 m native 1971 Tirana Tirana Golloborda higher Albanian priest origin from Vërnica

Расшифровки

Все расшифровки были вручную подготовлены нашей командой. Когда это было возможно, первоначальные версии расшифровок делали наши обученные местные помощники, носители соответствующих диалектов, которые организовывали также семейные разговоры. Наши редакторы-профессиональные филологи вычитывали и редактировали эти черновые версии. Итоговую чистовую вычитку делал Максим Макарцев. Для привязки текстовых расшифровок к аудиозаписи мы использовали EXMARaLDA Partitur Editor. Мы систематически редактировали только те фрагменты расшифровок, где звучит славянская речь, а албанский и другие языки приводятся только для контекста и соответствующие фрагменты систематически не вычитывались. Соответственно, запись на других языках варьирует между стандартной орфографией и неорфографическим полуфонетическим письмом.

Транскрипция

Вокализм

iü (алб. yll, ky)u
eă (шва)o
a

Консонантизм

Сонорные
m
lrn
jljnj

В расшифровках славянской речи мы не различали «плоское» и «дрожащее» /r/ (ср. албанское [r] в слове arrë и [ɾ] в слове erё).

Шумные
pbfv
tdθð
cdzsz
čšž
ćđśź
kʼ (мак. ќ)gʼ (мак. ѓ)
kgh

Просодия

Ударение обозначалось апострофом после ударной гласной (') — не только в многосложных, но также и в односложных словах. Это было необходимо, чтобы показать положение ударения в фонетических словах, включающих местоименные клитики и другие безударные элементы (предлоги и т.п.). Паузы обозначались только в связных нарративах (т. е. если говорящий перечислял слова или говорил отдельными предложениями и фрагментами, паузы не отмечались). Пауза обозначалась следующим образом: ((0.5)) для паузы в 500 мс.

Для нескольких штокавских расшифровок (например, 33 (1), 33 (2), 33 (3)) мы также указываем тип акцента. Наша система обозначений соответствует стандартной следующим образом (стандартная система до знака равенства, наша — после):

долгийкраткий
восходящий тонé = e':è = e'
нисходящий тонȇ = eˋ:ȅ = eˋ

Автоматическая обработка штокавских материалов опиралась на представленную систему, так как она очень близка к гаице. Для автоматической обработки македонских диалектных материалов мы автоматически перекодировали расшифровку в стандартную македонскую кириллицу для использования Classla 2.1.1. Единственное место в пользовательском интерфейсе, где используется кириллица — македонская лемматизация.

Морфологическая разметка

Разметка выполнялась в несколько этапов.

Во-первых, мы сформулировали правила определения языка соответствующей словоформы на основе тегов, вручную проставленных расшифровщиками и редакторами в EXMARaLDA Partitur Editor, а также на основе выбора алфавита (например, греческого или русского), наличия особых символов (например, ë однозначно указывало на албанскую языковую принадлежность словоформы) и комбинаций символов (например, сочетания букв ll, rr, начальные ng и mb также недвусмысленно указывали на албанский).

Во-вторых, соответствующие парсеры и тегеры применялись в зависимости от языка словоформы (см. таблицу выше). После этого полуавтоматически проверялись и редактировались только те части расшифровок, где звучала славянская речь. Те части, где говорят исследователи или где носители говорят на неславянских языках и диалектах, не редактировались. В таких случаях мы сохраняли автоматическую аннотацию.

В-третьих, лемматизация проверялась вручную (для славянских языков); леммы, автоматически отмеченные как албанские, выборочно проверялись и исправлялись, если это было необходимо. Для Голоборды, Корчи и Преспы лемматизация выполнялась на стандартном македонском языке — как наиболее близком по структуре. Для Мюзекеи и Шияка лемматизация основывалась на иекавских стандартах. Для диалектных лексем, которых не было в соответствующих стандартах, применялась стандартная фонология, что приводило к созданию фиктивных лемм, не входящих в соответствующий стандартный лексикон. Единственная функция этих лемм — обеспечение трансдиалектного поиска словоформ. Если стандартную родственную форму установить не удавалось, мы принимали любую подходящую словоформу, засвидетельствованную в наших расшифровках.

В-четвертых, морфологические теги для македонского и штокавского языков были гармонизированы, чтобы унифицировать ряд различий между конвенциями MULTEXT-East. Итоговый набор тегов представлен ниже.

В-пятых, результаты морфологической разметки были выборочно проверены. Мы сосредоточились на словоформах с наибольшей омонимией и лексемах с наиболее частотными токенами.

Это бета-версия нашего корпуса, поэтому ручное редактирование морфологических тегов продолжается. Если вы заметили ошибку, пожалуйста, свяжитесь с нами. При работе с корпусом настоятельно рекомендуется ручная проверка результатов поиска.

Учитывая преимущественно двуязычный характер наших данных и частые переключения кодов, мы хотели бы обратить внимание пользователей на два инструмента:

1) Корпус позволяет искать наборы словоформ, которые упорядочены особым образом (подряд одна за другой или на расстоянии в одну или несколько нерелевантных словоформ). Поисковой запрос можно составить с указанием, что одна словоформа должна быть славянской, а другая — албанской. Это покажет все случаи переключения кодов, которые соответствуют выбранным вами параметрам.

2) Специальнй тег Foreign отмечает все лексические заимствования и конгруентные лексикализации из албанского языка. Их невозможно формально различить, поскольку оба типа имеют албанские основы и славянскую словоизменительную морфологию.

Мы также различаем прямую речь (тег OWN) и цитаты (XENO), а еще несколько тегов предоставляют дополнительную информацию об интонации и контексте интервью (((LAUGH)), ((COUGH)), ((NOISE))).

Метаданные

  • Идентификатор транскрипта
  • Год и место записи
  • Подкорпус (диалект)
  • Код говорящего
  • Код исследователя, участвовавшего в записи и расшифровке интервью
  • Тип интервью (присутствие/отсутствие исследователей)
  • Место рождения говорящего, год рождения, пол и род занятий; другие социолингвистические данные, если есть; родственные связи, если указаны
  • Текущее место жительства говорящего
  • Жанр

Список расшифровок

Посмотреть полный список

Идентификатор транскрипта Подкорпус (диалект) Диалект Место записи Жанр Исследователь Тип населенного пункта Полная акцентуация
2 Štokavian Shijak Borake Interview yes Village no
10 Balkan Slavic Korça Boboshtica Interview yes Village no
12 Balkan Slavic Korça Boboshtica Interview yes Village no
13 Balkan Slavic Korça Boboshtica Frog yes Village no
14 Balkan Slavic Korça Boboshtica Frog yes Village no
15 Balkan Slavic Korça Boboshtica Frog yes Village no
16 Balkan Slavic Golloborda Tirana Interview yes City no
17 Balkan Slavic Golloborda Tirana Interview yes City no
18 Balkan Slavic Golloborda Tirana Interview yes City no
19 Balkan Slavic Golloborda Tirana Interview yes City no
20 Balkan Slavic Golloborda Elbasan Interview yes City no
22 Balkan Slavic Golloborda Elbasan Frog yes City no
24 Balkan Slavic Prespa Pustec Interview yes Village no
25 Balkan Slavic Prespa Korça Interview yes City no
26 Balkan Slavic Golloborda Elbasan Interview yes City no
27 Balkan Slavic Korça Korça Interview yes City no
28 Balkan Slavic Korça Korça Interview yes City no
30 Balkan Slavic Korça Korça Frog yes City no
31 Balkan Slavic Korça Korça Frog yes City no
32 Balkan Slavic Korça Korça Frog yes City no
35 Štokavian Shijak Borake Frog yes Village no
36 Balkan Slavic Golloborda Elbasan Frog yes City no
37 Balkan Slavic Prespa Elbasan Interview yes City no
38 Balkan Slavic Golloborda Tirana Frog yes City no
39 Balkan Slavic Golloborda Tirana Interview yes City no
40 Balkan Slavic Golloborda Elbasan Interview yes City no
41 Balkan Slavic Golloborda Elbasan Interview yes City no
42 Balkan Slavic Golloborda Tirana Interview yes City no
44 Balkan Slavic Golloborda Elbasan Frog yes City no
45 Balkan Slavic Golloborda Trebisht Interview yes Village no
48 Balkan Slavic Golloborda Trebisht Interview yes Village no
49 Balkan Slavic Golloborda Trebisht Interview yes Village no
50 Balkan Slavic Golloborda Trebisht Interview yes Village no
51 Balkan Slavic Golloborda Trebisht Interview yes Village no
52 Balkan Slavic Golloborda Trebisht Interview yes Village no
54 Balkan Slavic Golloborda Trebisht Interview yes Village no
55 Balkan Slavic Golloborda Trebisht Interview yes Village no
56 Balkan Slavic Golloborda Trebisht Interview yes Village no
57 Balkan Slavic Golloborda Trebisht Interview yes Village no
58 Balkan Slavic Golloborda Trebisht Interview yes Village no
59 Balkan Slavic Golloborda Trebisht Interview yes Village no
60 Balkan Slavic Golloborda Trebisht Interview yes Village no
61 Balkan Slavic Golloborda Trebisht Interview yes Village no
62 Balkan Slavic Golloborda Trebisht Interview yes Village no
63 Balkan Slavic Prespa Pustec Family no Village no
65 Balkan Slavic Prespa Tuminec Family no Village no
67 Balkan Slavic Prespa Tuminec Family no Village no
70 Štokavian Shijak Borake Interview yes Village yes
72 Štokavian Shijak Borake Interview yes Village yes
73 Balkan Slavic Prespa Korça Frog yes City no
74 Balkan Slavic Prespa Korça Interview yes City no
75 Balkan Slavic Prespa Korça Frog yes City no
76 Štokavian Shijak Borake Interview yes Village no
77 Štokavian Shijak Borake Interview yes Village no
78 Balkan Slavic Prespa Elbasan Frog yes City no
79 Balkan Slavic Prespa Korça Frog yes City no
80 Balkan Slavic Prespa Korça Interview yes City no
81 Balkan Slavic Prespa Korça Interview yes City no
82 Balkan Slavic Prespa Pustec Frog yes Village no
83 Balkan Slavic Prespa Globoçeni Frog yes Village no
84 Balkan Slavic Prespa Globoçeni Interview yes Village no
86 Balkan Slavic Prespa Pustec Interview yes Village no
90 Balkan Slavic Prespa Globoçeni Interview yes Village no
91 Balkan Slavic Prespa Dolna Gorica Interview yes Village no
94 Balkan Slavic Prespa Pustec Interview yes Village no
96 Balkan Slavic Prespa Korça Interview yes City no
98 Balkan Slavic Prespa Korça Interview yes City no
99 Balkan Slavic Golloborda Trebisht Family no Village no
100 Balkan Slavic Golloborda Trebisht Family no Village no
101 Balkan Slavic Golloborda Trebisht Family no Village no
104 Balkan Slavic Golloborda Trebisht Frog no Village no
105 Balkan Slavic Golloborda Trebisht Family no Village no
106 Balkan Slavic Golloborda Trebisht Family no Village no
108 Balkan Slavic Golloborda Trebisht Frog no Village no
109 Balkan Slavic Golloborda Trebisht Family no Village no
110 Balkan Slavic Golloborda Trebisht Family no Village no
111 Balkan Slavic Golloborda Trebisht Family no Village no
112 Balkan Slavic Golloborda Trebisht Frog no Village no
113 Balkan Slavic Golloborda Trebisht Frog no Village no
114 Balkan Slavic Golloborda Elbasan Frog no City no
116 Balkan Slavic Golloborda Elbasan Frog no City no
117 Balkan Slavic Golloborda Elbasan Family no City no
118 Balkan Slavic Golloborda Tirana Frog no City no
119 Balkan Slavic Golloborda Tirana Family no City no
121 Balkan Slavic Golloborda Elbasan Frog no City no
122 Balkan Slavic Golloborda Elbasan Family no City no
123 Balkan Slavic Golloborda Elbasan Frog no City no
124 Balkan Slavic Golloborda Tirana Frog no City no
125 Balkan Slavic Golloborda Elbasan Frog no City no
126 Balkan Slavic Golloborda Tirana Family no City no
127 Balkan Slavic Golloborda Elbasan Frog no City no
128 Balkan Slavic Golloborda Elbasan Family no City no
130 Balkan Slavic Golloborda Tirana Frog no City no
131 Balkan Slavic Golloborda Elbasan Family no City no
133 Balkan Slavic Golloborda Tirana Frog no City no
134 Balkan Slavic Golloborda Tirana Frog no City no
135 Balkan Slavic Golloborda Tirana Family no City no
136 Balkan Slavic Golloborda Tirana Frog no City no
137 Balkan Slavic Golloborda Tirana Family no City no
138 Balkan Slavic Golloborda Tirana Frog no City no
139 Balkan Slavic Golloborda Tirana Family no City no
140 Balkan Slavic Golloborda Elbasan Family no City no
145 Balkan Slavic Prespa Tuminec Family no Village no
146 Štokavian Myzeqe Hamil Interview yes Village no
150 Štokavian Myzeqe Fier Interview yes City no
151 Štokavian Myzeqe Rreth Libofsha Interview yes Village no
152 Štokavian Myzeqe Rreth Libofsha Interview yes Village no
153 Štokavian Myzeqe Rreth Libofsha Interview yes Village no
154 Štokavian Myzeqe Rreth Libofsha Interview yes Village no
155 Štokavian Myzeqe Rreth Libofsha Interview yes Village no
156 Štokavian Myzeqe Rreth Libofsha Interview yes Village no
157 Štokavian Myzeqe Rreth Libofsha Interview yes Village no
158 Štokavian Myzeqe Rreth Libofsha Frog yes Village no
159 Štokavian Myzeqe Rreth Libofsha Interview yes Village no
160 Štokavian Myzeqe Rreth Libofsha Interview yes Village no
161 Štokavian Shijak Sukth Interview yes Village no
162 Štokavian Shijak Sukth Interview yes Village no
163 Štokavian Shijak Sukth Interview yes Village no
164 Štokavian Shijak Sukth Interview yes Village no
165 Štokavian Shijak Borake Frog yes Village no
166 Štokavian Shijak Borake Interview yes Village no
168 Balkan Slavic Prespa Dolna Gorica Interview yes Village no
169 Balkan Slavic Prespa Dolna Gorica Interview yes Village no
170 Balkan Slavic Prespa Dolna Gorica Interview yes Village no
171 Balkan Slavic Prespa Dolna Gorica Interview yes Village no
172 Balkan Slavic Prespa Dolna Gorica Interview yes Village no
173 Balkan Slavic Prespa Dolna Gorica Frog yes Village no
174 Balkan Slavic Prespa Dolna Gorica Interview yes Village no
175 Balkan Slavic Prespa Dolna Gorica Interview yes Village no
176 Balkan Slavic Prespa Dolna Gorica Frog yes Village no
177 Balkan Slavic Prespa Pustec Interview yes Village no
178 Balkan Slavic Prespa Tuminec Interview yes Village no
179 Balkan Slavic Prespa Tuminec Interview yes Village no
180 Balkan Slavic Prespa Tuminec Interview yes Village no
181 Balkan Slavic Prespa Tuminec Interview yes Village no
182 Balkan Slavic Prespa Tuminec Interview yes Village no
183 Balkan Slavic Prespa Tuminec Interview yes Village no
184 Balkan Slavic Prespa Korça Family no City no
186 Štokavian Myzeqe Fier Interview yes City no
187 Štokavian Myzeqe Fier Frog yes City no
11 (1) Balkan Slavic Korça Boboshtica Interview yes Village no
11 (2) Balkan Slavic Korça Boboshtica Interview yes Village no
185 (1) Štokavian Myzeqe Fier Interview yes City no
185 (2) Štokavian Myzeqe Fier Interview yes City no
29 (1) Balkan Slavic Korça Korça Interview yes City no
29 (2) Balkan Slavic Korça Korça Interview yes City no
29 (3) Balkan Slavic Korça Korça Interview yes City no
3 (1) Štokavian Shijak Borake Interview yes Village no
3 (2) Štokavian Shijak Borake Interview yes Village no
33 (1) Štokavian Myzeqe Rreth Libofsha Interview yes Village yes
33 (2) Štokavian Myzeqe Rreth Libofsha Interview yes Village yes
33 (3) Štokavian Myzeqe Rreth Libofsha Interview yes Village yes
33 (4) Štokavian Myzeqe Rreth Libofsha Interview yes Village yes
43 (1) Balkan Slavic Golloborda Elbasan Interview yes City no
43 (2) Balkan Slavic Golloborda Elbasan Interview yes City no
46 (1) Balkan Slavic Golloborda Trebisht Interview yes Village no
46 (2) Balkan Slavic Golloborda Trebisht Interview yes Village no
5 (1) Štokavian Shijak Borake Interview yes Village no
5 (2) Štokavian Shijak Borake Interview yes Village no
5 (3) Štokavian Shijak Borake Interview yes Village no
5 (4) Štokavian Shijak Borake Interview yes Village no
53 (1) Balkan Slavic Golloborda Trebisht Interview yes Village no
53 (2) Balkan Slavic Golloborda Trebisht Interview yes Village no
53 (3) Balkan Slavic Golloborda Trebisht Interview yes Village no
85 (1) Balkan Slavic Prespa Dolna Gorica Interview yes Village no
85 (2) Balkan Slavic Prespa Dolna Gorica Interview yes Village no
87 (1) Štokavian Shijak Sukth Interview yes Village no
87 (2) Štokavian Shijak Sukth Frog yes Village no
87a Štokavian Shijak Sukth Frog yes Village no
88 (1) Balkan Slavic Prespa Pustec Interview yes Village no
88 (2) Balkan Slavic Prespa Pustec Interview yes Village no
89 (1) Balkan Slavic Prespa Pustec Interview yes Village no
89 (2) Balkan Slavic Prespa Pustec Interview yes Village no
92 (1) Balkan Slavic Prespa Pustec Interview yes Village no
92 (2) Balkan Slavic Prespa Pustec Interview yes Village no
93 (1) Balkan Slavic Prespa Dolna Gorica Interview yes Village no
93 (2) Balkan Slavic Prespa Dolna Gorica Interview yes Village no
95 (1) Štokavian Shijak Borake Interview yes Village no
95 (2) Štokavian Shijak Borake Interview yes Village no
95 (3) Štokavian Shijak Borake Interview yes Village no
188 Štokavian Shijak Borake Family no Village no

Набор тэгов для СДА

Первоначально набор тегов был основан на морфосинтаксическом формате MULTEXT-East. Разметка для диалектов Голоборды, Корчи и Преспы была основана на формате для македонского языка; разметка для Мюзекеи и Шияка была основана на формате для сербохорватского языка.

Мы внесли следующие изменения в набор тегов: 1) гармонизировали македонские и штокавские парсеры и тегеры, которые иначе следовали бы несколько различающимся принципам и стандартам; 2) адаптировали набор тегов к терминологии, наиболее широко используемой в славянской лингвистике (например, использование термина «несовершенный вид» вместо «прогрессивный вид»); 3) унифицировали все другие возможные расхождения (например, формат MULTEXT-East для сербохорватского языка не учитывает глагольные виды, поэтому их пришлось ввести для нашего корпуса).

Набор тегов для албанского языка был разработан Марией Морозовой, Александром Русаковым и Тимофеем Архангельским для Албанского национального корпуса и может быть найден здесь. Албанским тегам предшествует префикс sq:, чтобы избежать путаницы с одноименными славянскими тегами.

Грамматические особенности слов в корпусе обозначены короткими тегами. В тегах сокращения пишутся с заглавной буквы, а полные слова — нет.

Смотреть набор тэгов

Ниже приводится полный список тэгов с расшифровками:

Тэг Расшифровка Комментарии и примеры
1 first person
2 second person
3 third person
Acc accusative case
Adm admirative (treated as mood for the simplicity of the description)
ADJ adjective (POS)
ADP adposition = preposition (POS)
ADV adverb (POS)
AdvPronDem demonstrative
AdvPronEmp emphatic
AdvPronInt interrogative
AdvPronNeg negative (adverbs, pronouns)
AdvPronRel relational
Aor aorist
Aux auxiliary
biaspectual biaspectual verb
Card cardinal (numerals)
CCONJ coordinating conjunction (POS)
Cmp comparative degree by adjectives and adverbs
Cnd conditional mood
Cnv converb (verbal adverb)
Dat dative case
Def definite form (of adjectives in Štokavian, of various POS in Macedonian)
Dist distal form (by deictic articles)
Fem feminine grammatical gender
Fin finite form
Foreign the word form uses an Albanian stem but Slavic morphology (by borrowings and congruent lexicalizations)
Fut future Štokavian future I forms can be realized as synthetic (došću) or analytic (umrijet ću). The latter type is encoded as Linf or Sinf + a personal form of htjeti
Gen genitive case
Imper imperative
Imperf imperfect tense
imperfective imperfective aspect
Indef indefinite form of adjectives
Indic indicative
Ins instrumental case
INTJ interjection
Linf long infinitive kazati
Loc locative case
Lpart l-participle pisao, rekla
main general type of verbs that are not auxiliaries, modals, or phasal verbs
Masc masculine grammatical gender
Mod modal
Native words not tagged as Foreign
NegPol negative polarity nema
Neut neutral grammatical gender
Nom nominative case
NOUN noun (POS)
Npart n-/t- participle zaboravljen
NUM numeral (POS)
NumType numeral type (cardinal, ordinal, sets, total)
Obl oblique case
Ord ordinal (numerals)
Part participles (except for Lparticiples and Nparticiples) buduća
PART particle (POS)
perfective perfective verbal aspect
phasal phasal verbs
Plur plural number
Poss words that have posessive semantics (e.g. posessive adjectives) babin
Pres present tense
PRON pronoun (POS)
PROPN proper noun (POS)
Prox proximal form (by deictic articles)
Prs present tense
Reflex reflexive
SCONJ subordinating conjunction
Sets sets as a type of numerals
Sinf short infinitive kazat
Sing singular number
Tot total as a type of numerals
VERB verb (POS)
Vnoun verbal noun slučenje
Voc vocative form (subordinated to cases for the sake of simplicity)
X word forms non-classified for POS

Часто задаваемые вопросы (ЧаВо)

— Что такое корпус славянских диалектов Албании?

Это языковой корпус, то есть собрание неадаптированных расшифровок интервью, проведенных с носителями славянских диалектов в Албании. Каждой словоформе, включенной в корпус, приписана дополнительная языковая информация, то есть разметка. Корпус имеет удобный интерфейс, который позволяет писать поисковые запросы.

— Кому нужны корпуса?

Корпуса нужны лингвистам. Система поиска в корпусе и языковая разметка позволяют легко делать поисковые вопросы, например, «найти все местоимения в винительном падеже» или «найти все формы слова mačka, за которым следует глагол» или «найти все существительные, за которым следуют прилагательные», чтобы можно было извлечь соответствующую информацию за считанные секунды. Дальнейший анализ таких данных позволяет лингвистам определить, как изменяются соответствующие языковые системы, как албанский язык влияет на них, в каких пределах можно наблюдать языковую вариацию (и есть ли у нее вообще какие-либо пределы), есть ли какие-нибудь новые и интересные языковые явления, которые не встречаются в родственных диалектах, не находящихся под влиянием албанского языка.

Корпуса могут быть полезными инструментами не только для профессиональных лингвистов, но также для преподавателей, носителей языка и студентов.

Корпус документирует состояние языка/диалекта в определенный период. Например, один из включенных в корпус диалектов (македонский региона Корчи), по-видимому, исчез в последние несколько лет (или по крайней мере его последние носители стали недоступны исследователям в силу своего преклонного возраста). Насколько нам известно, наш корпус включает одни из последних по времени записи образцов речи на этом диалекте. Собранные и обработанные нами материалы сохраняют материал этого и других диалектов для будущих поколений. Также возможно, что их когда-нибудь используют языковые активисты для возрождения соответствующих идиомов.

— Могу ли я использовать корпус для других целей, помимо чисто лингвистических исследований?

Корпус славянских диалектов Албании содержит полные расшифровки наших записей. Помимо чисто лингвистических интересов, содержание расшифровок также может быть проанализировано, поскольку расшифровки очень разнообразны и включают множество повествований, содержащих устную историю, идентичность и анонимные личные биографии. Наши расшифровки также включают много этнографической и этнолингвистической информации о традиционной культуре общин, которая может быть важна для этнолингвистов, этнографов и членов общин. Существует также много примеров устных народных традиций (песни, сказки, пословицы и т. д.), доступных для исследователей и широкой общественности.

— Могу ли я использовать корпус в качестве словаря?

Вы не сможете использовать этот корпус в качестве словаря в традиционном смысле этого слова, поскольку включенным в корпус леммам не сопоставлены переводы или толкования. Однако в корпусе можно посмотреть контекст использования какого-либо слова и тем самым понять его примерное значение.

— Что такое морфологическая разметка и как ее делают?

Наш корпус был лемматизирован и морфологически размечен. Лемматизация означает, что каждое слово в расшифровках было сопоставлено некоторой лемме, т.е. условно словарной форме. Морфологическая разметка относится к записи важных морфологических признаков каждого слова (например, часть речи, число, падеж, время и т.д.). Поскольку наш корпус слишком большой для ручной разметки, мы использовали автоматические морфологические анализаторы: тегеры и парсеры.

Для диалектов Голоборды, Корчи и Преспы мы использовали тегер и парсер, созданный для македонского литературного языка как наиболее близкого стандартного идиома. Для диалектов Мюзекеи и Шияка — тегеры и парсеры, созданные для литературных стандартов на штокавской основе (прежде всего хорватские, так как они учитывали некоторые диалектные различия в области морфологии и фонологии). Указание на литературный язык для соответствующих анализаторов не является политическим высказыванием касательно идентичности наших собеседников и служит исключительно для ориентирования пользователей.

Результаты автоматической разметки были частично проверены вручную. В нашем корпусе все еще есть неснятая омонимия, т. е. когда одна словоформа может иметь несколько возможных морфологических разборов. Например, ja в македонских диалектах может означать ‘я’ (первое лицо единственного числа, личное местоимение в именительном падеже), ‘ее’ (третье лицо единственного числа, личное местоимение женского рода в винительном падеже), ‘вот’ (дейктическая частица) и т.д. Это значит, что поиск по корпусу неизбежно будет выдавать ложноположительные результаты, поэтому мы настоятельно рекомендуем по возможности проверять результаты поиска вручную.

Благодарность

Корпус является основным исследовательским инструментом, разработанным для проекта «Контактоиндуцированные языковые изменения в ситуациях нестабильного двуязычия — их пределы и моделирование: славянские (социальные) диалекты в Албании», финансируемого DFG (Немецкое исследовательское общество), номер проекта 8750/1-1 (16.10.2019 — 30.04.2024). Ведущий исследователь в проекте — Максим Макарцев, к.ф.н.

Концепция, разработка и реализация этого проекта были бы невозможны без постоянной поддержки профессора Герда Хентшеля, мою глубочайшую благодарность которому невозможно выразить словами. Я глубоко признателен профессору Яну Патрику Целлеру и другим моим коллегам по Институту славистики (Университет им. Карла фон Осецкого, Ольденбург) за их поддержку и советы на разных этапах моего проекта.

Авторы

Корпус был разработан и поддерживается:

Текущая версия корпуса использует платформу tsakorpus, разработанную Тимофеем Архангельским, и хранится на сервере Университета имени Карла фон Осецкого, Ольденбург (Германия).

Я глубоко благодарен Елене Узеневой, к.ф.н., за сотрудничество в рамках проекта (1.01.2020 — 31.03.2022), без поддержки которой этот корпус не был бы создан.

Мы предприняли несколько полевых экспедиций для сбора языковых материалов для корпуса. В 2010–2019 гг. я организовывал эти экспедиции, используя собственные ресурсы (см. страницу на сайте Института славяноведения РАН с публикациями, основанными на собранных материалах). В экспедициях участвовали:

  • Михаил Чиварзин, к.ф.н., Москва — Шэньчжэнь (MC);
  • Александра Чиварзина, к.ф.н., Москва — Шэньчжэнь (AC);
  • Рената Хамидуллина, Пермь — Вена (RH);
  • Марина Михайлова, София — Калгари (MMI);

В 2020–2022 годах Максим Макарцев и Елена Узенева организовали полевые экспедиции в рамках проекта. Их участниками были:

Фотография на стартовой странице была сделана в c. Требишт, Албания, независимым фотографом-документалистом Айно Вяянянен во время нашей совместной исследовательской поездки в рамках вышеупомянутого проекта в 2020 году и использована с ее любезного разрешения.

Транскрипты для корпуса подготовили:

  • Христина Ангелеска — Прилеп
  • Бояна Дамнянович — Хельсинки
  • Павел Фалалеев — Хельсинки
  • Джордже Генович — Белград
  • Виолета Йорданова — Скопье
  • Наталья Кикило, к.ф.н. — Москва
  • Максим Макарцев, к.ф.н. — Ольденбург
  • Милан Миленович — Белград
  • Екатерина Панова — Санкт-Петербург
  • Ульяна Путилина — Москва
  • Анджела Реджич, к.ф.н. — Белград
  • Мария Стрышевска — Вроцлав
  • Екатерина Титова — Москва

Мы глубоко признательны нашим собеседникам и местным помощникам, чьи усилия и любовь к родному языку сделали возможным создание этого корпуса. К сожалению, мы не можем раскрыть их имена и личные данные в целях защиты данных.

Библиография

Berman, Ruth A., Dan I. Slobin, Sven Stromqvist, and Ludo T. Verhoeven. 1994–2004. Relating Events in Narrative. Hillsdale, N.J. L. Erlbaum Associates.

Bojović, Jovan R., ed. 1991. Stanovništvo slovenskog porijekla u Albaniji : zbornik radova sa međunarodnog naučnog skupa održanog u Cetinju 21, 22. i 23. juna 1990. Titograd: Stručna knjiga.

Čëxa, Oksana V. 2009. “Novogrečeskaja leksika narodnoj astronomii v sopostavlenii s balkanoslavjanskoj: Luna i lunnoe vremja (ėtnolingvističeskij aspekt).” Ph.D., Institute of Slavic Studies, Russian academy of sciences. https://inslav.ru/event/chyoha-oksana-vladimirovna-novogrecheskaya-leksika-narodnoy-astronomii-v-sopostavlenii-s.

Cvetanovski, Goce. 2010. Govorot na makedoncite vo Mala Prespa: zapadnoprespanski govor. Skopje: Institut za makedonski jazik “Krste Misirkov”.

Hentschel, Gerd, and Jan P. Zeller. 2013. “Gemischte Rede, gemischter Diskurs, Sprechertypen: Weißrussisch, Russisch und gemischte Rede in der Kommunikation weißrussischer Familien.” In Wiener Slawistischer Almanach, edited by Aage A. Hansen-Löve and Tilmann Reuther, 127–55 70. München, Berlin, Wien: Peter Lang.

Makartsev, Maxim. 2017. “Ėtjudy k balkanskomu bestiariju: Kukuška.” Živaja starina 95 (3): 46.

———. 2023. “Razvoj balkanoslavenskoga tipa futura u štokavskim iseljeničkim dijalektima u Albaniji i jezički kontakti.” Književni jezik (34): 41–69.

Makartsev, Maxim, and Natalia Kikilo. 2022. “Some Tendencies in the Morphosyntax of the Migrational Shtokavian Dialects in Albania (Shijak and Myzeqe) And Slavic-Albanian Language Contact.” Slavic World in the Third Millennium 17 (1-2): 120–41. doi:10.31168/2412-6446.2022.17.1-2.07.

Mayer, Mercer. 1969. Frog, Where Are You? Sequel to a Boy, a Dog and a Frog. New York: Dial Books for Young Readers (a division of Penguin Putnam Inc.).

Mazon, André. 1936. Documents, contes et chansons slaves de l’Albanie du Sud. Bibliothèque d’études balkaniques 5. Paris: Librarie Droz.

Mazon, André, and Maria Filipova-Bajrova. 1965. Documents slaves de l’Albanie du Sud: II. Pièces complémentaires. Bibliothèque d’études balkaniques 8. Paris: Institut d’études slaves.

Plotnikova, Anna A. 2009. Materialy dlja ėtnolingvističeskogo izučenija balkanoslavjanskogo areala. 2, revised. Moskva: Institut slavjanovedenija RAN.

Seliščev, Afanasij M. 1931. Slavjanskoe naselenie v Albanii (s illjstracijami v tekste i s kartoju Albanii). Sofia.

Sobolev, Andrey N., and Aleksandr Novik. 2013. Golo Bordo (Gollobordë), Albanija: Iz materialov balkanskoj ėkspedicij RAN i SPbGU 2008-2010 gg. Materialien zum Südosteuropasprachatlas Bd. 6. Sankt-Peterburg: Nauka.

———. 2017. Gollobordë (Golo Bordo), Shqipëri: Nga materialet e ekspeditës ballkanike të AShR-së dhe UShSt-P-së në vitet 2008-2010. Translated by Ligor Cullufe. Tiranë: Botimet Toena.

———. 2018. Golo Brdo: Od materijalite na balkanskata ekspedicija na RAN i SPbDU vo 2008-2010 godina. Materialien zum Südosteuropasprachatlas Band 6. Skopje, Sankt Peterburg: Univerzitet "Sv. Kiril i Metodij"; Institut za makedonski jazik "Krste Misirkov"; "Nauka".

Steinke, Klaus, and Xhelal Ylli. 2007. Die slavischen Minderheiten in Albanien (SMA): 1. Teil. Prespa-Vërnik-Boboshtica. Slavistische Beiträge 458. München: Otto Sagner.

———. 2008. Die slavischen Minderheiten in Albanien (SMA): 2. Teil. Golloborda-Herbel-Kërçishti i Epërm. Slavistische Beiträge 462. München: Otto Sagner.

———. 2010. Die slavischen Minderheiten in Albanien (SMA): 3. Teil. Gora. Slavistische Beiträge 474. München: Otto Sagner.

———. 2013. Die slavischen Minderheiten in Albanien (SMA): 4. Teil. Vraka-Borakaj. Slavistische Beiträge 491. München, Berlin: Sagner.

Tončeva, Veselka. 2014. Našencite v Albanija: Istorija, ezik, tradicii. Sofia: Ongăl.

Vidoeski, Božidar. 1998. Dijalektite na makedonskiot jazik. Dijalektite na makedonskiot jazik 1. Skopje: Makedonska Akademija na naukite i umetnostite.

Ylli, Xhelal. 1997. Das slavische Lehngut im Albanischen. Teil 1 : Lehnwörter. Slavistische Beiträge. Digitale Ausgabe 350. München: Verlag Otto Sagner.

———. 2000. Das slavische Lehngut im Albanischen. Teil 2 : Ortsnamen. Slavistische Beiträge. Digitale Ausgabe 395. München: Verlag Otto Sagner.

Адрес для обратной связи


По всем вопросам просим обращаться к Максиму Макарцеву.