{{$root.pageTitleShort}}

Отвечает за слова

Дагестанский программист Заур Агамов работает в Дубае — создает боты для крупных компаний. А в свободное время спасает от забвения исчезающие языки. Если вы носитель — присоединяйтесь
4279

Согласно данным ЮНЕСКО, 19 дагестанских языков находятся под угрозой исчезновения, еще 6 внесены в категорию «уязвимых». До недавнего времени словари этих языков существовали только в виде печатных книг, к которым молодежь, привыкшая к гаджетам, обращалась все реже. Программист Заур Агамов устроил дагестанским языкам «апгрейд», создав некоммерческий проект по сохранению языков «Public dictionary». Это бесплатные приложения-словари для смартфонов, сайты и телеграм-боты. Они помогают совершенствовать свой язык, общаться, а школьники пользуются ими, когда делают домашнюю работу по родному языку.

Для дела и души

Заур Агамов родился и вырос в Дагестане. Родной лезгинский язык знает с детства — он всегда звучал и дома в Махачкале, и в селе, где он проводил каникулы. В школе Заур увлекался не только языками программирования, но и просто языками. Выигрывал городские олимпиады по математике и английскому. После второго курса матфака Заур перевелся из дагестанского вуза в питерский Электротехнический университет, окончил его, работал в «Яндексе» и других компаниях. В 2012-м получил интересное предложение из Дубая. После холодного Питера южному человеку захотелось побольше солнца — так он объясняет свой переезд в Эмираты.

— Начиналось все как хобби-проект. Первое приложение — «Лезгинский словарь» написал в 2014-м для души. Хотя для программиста считается хорошим тоном, когда есть собственные проекты, — рассказывает Заур. — На создание первого приложения ушло много сил. У меня был вордовский файл с лезгинским словарем, который совершенно не выглядел как база данных. Пришлось вручную размечать: тут — слово, тут — перевод. Через две недели тупой однообразной работы шея разболелась так, что я три дня лежал на больничном.

Версию для iOS Зауру помог написать друг-айфонист. А потом пошли просьбы сделать то же самое и для других языков. Просили башкиры, чуваши, ногайцы, даже носители такого редкого языка, как гагаузский.

— Я увидел, что приложениями активно пользуются, и мне самому стало интересно, захотелось продолжить, — говорит программист.

Без лишних слов

Сегодня «Лезгинский словарь» установили около 20 тысяч раз на Android и примерно столько же на IPhone. Рейтинг приложения в Play Market — 4,7 из 5, в App Store — 4,5. Помимо него, доступны словари кумыкского, башкирского языков, и карачаево-балкарский, пока только в виде сайта. Ежедневно ко всем сервисам Заура обращается порядка тысячи человек.

В России, по данным ЮНЕСКО, под угрозой исчезновения находятся 90 языков, в том числе 19 дагестанских: андийский, арчинский, ботлихский, ногайский, каратинский, рутульский, тиндинский, цезский и другие.

Сейчас проект сосредоточен на дагестанских языках: к маю разработчик планирует создать онлайн-словари аварского, агульского, даргинского, лакского, рутульского и табасаранского языков. Восемь приложений будет работать на Android, iOS, кроме того, будет 8 сайтов, 8 телеграм- и фейсбук-ботов. Своей очереди ждут исчезающие ногайский и цахурский языки. Впрочем, Заур не собирается ограничиваться Дагестаном. «Public dictionary» нацелен охватить как можно больше российских языков, независимо от того, грозит им исчезновение или нет.

Параллельно с этим Заур вместе с питерской командой разработчиков создает анимированные азбуки крупных языков в виде мобильных приложений. Программист пытался найти финансирование на разработку лезгинской азбуки, но безуспешно, — пока есть только демо-ролик на YouTube.

— Скоро выйдет арабская азбука, и мы с депутатом Народного собрания Дагестана Тимуром Гусаевым обсуждаем возможность создания азбук дагестанских языков. Опять же, если найдем финансы, ведь к каждой букве — а их в ряде дагестанских алфавитов больше 40 — нужно нарисовать новые сценки, оплатить работу программистов, — объясняет разработчик.

Бот-аварец и бот-даргинец

Сейчас Заур работает в дубайском стартапе Brndstr — делает ботов для фейсбука, твитера, телеграма. В числе последних клиентов стартапа — такие бренды, как Volkswagen, British Airways, Huawei.

По словам разработчика, боты — новый тренд.

— Это автоматизированный собеседник, который умеет читать входящие сообщения и отвечать на них. В случае с ботом-лезгином он понимает, что вы отправили ему слово на русском и высылает перевод. И наоборот, — объясняет Заур Агамов.

Сейчас в телеграме доступны боты аварского, лезгинского, кумыкского, лакского, агульского и даргинского языков. Их аналоги скоро появятся в фейсбуке.

«Ле, Гугл! ВорчIами!»

В переводе с аварского это означает: «Эй, Гугл! Здравствуй!» Но в ближайшие годы голосовые помощники вроде Google Now или Siri вряд ли научатся воспринимать дагестанские языки. Чтобы обучить машину пониманию устной речи, нужен очень большой объем звуковых данных.

— Мы на слух воспринимаем только 70% речи, остальное мозг домысливает по контексту. Поэтому, например, для английского языка одно слово озвучивается 1000−2000 раз. Потом 10−20 лингвистов пишут правила генерации. Такого звукового материала у меня нет, и вряд ли будет. Для дагестанских языков это представляет только академический интерес. В случае с большими языками — английским, русским, где сотни миллионов носителей, в этом есть экономический смысл: можно создать навигаторы, голосовой поиск. Поэтому корпорации вроде Google и Яндекса готовы тратить на это время и деньги, — говорит о технологии Заур. — Для «малых» языков это неактуально.

Трудности перевода

Каждый дагестанский язык — отдельный космос со своими законами пространства и времени. Например, в табасаранском языке 48 падежей. В аварском и лезгинском считают двадцатками, а не десятками. В языках горцев учитываются не только привычные род и число, но и месторасположение собеседника — под горой он стоит или на горе, и на какой именно высоте. Попробуйте-ка обучить такому робота-переводчика!

По данным миннаца Дагестана, в республике говорят на 33 языках и более чем 100 диалектах.

Заур убежден: создать хороший переводчик, способный переводить целые фразы на языках Дагестана, — нереально. Система машинного перевода учится на огромных корпусах параллельных текстов. Это не просто вордовские файлы с текстами — лингвист должен разметить каждое слово: здесь существительное, здесь глагол; тут корень, тут окончание. Таких объемов контента даже у самых крупных народностей Дагестана попросту нет. Попытку создать подобный переводчик сделал талантливый программист Омар Ганиев, автор сайта dalang.ru, но система хромает — переводчик не на чем обучать.

— Я работал в компании, которая создавала арабский переводчик. В офисе сидели семь лингвистов, в течение двух лет с утра до вечера они писали правила перевода в приложении, типа: «Если предложение начинается так, то окончание у слова будет такое». Это сумасшедший объем работы. Если кто-то и сделает переводчик дагестанских языков, то энтузиасты вроде меня. Но и качество будет соответствующее, — говорит Заур.

Все, кроме денег

Сейчас над «Public dictionary» работают трое: Заур Агамов, iOS-программист Александр Михайлов и дизайнер Олег Данилов. Для всех это хобби. Расходы Заур покрывает из собственного кармана. Сам платит за хостинг сайта, за лицензию в App Store. Разработчик неоднократно обращался в различные фонды в Дагестане, но поддержки не находил.

По статистике, на даргинском языке говорят около полумиллиона человек, однако это не один, а более 10 языков, считающихся диалектами. В их числе, например, периферийный кубачинский диалект. Жители аула Кубачи считают его самостоятельным языком. Литературный даргинский, созданный на основе акушинского диалекта, понимают не более половины даргинцев.

— Я знаю, что в Дагестане есть государственные гранты на подобные проекты. Но проблема в том, что я не умею просить. В республике не живу с 18 лет, мне сложно понять местную специфику. В Дагестане, даже если у тебя хороший проект, но ты пришел с улицы и попросишь деньги, тебе их никто не даст, — рассказывает программист про свой опыт.

В этом году он подал заявку в седьмой набор резидентов бизнес-инкубатора «Пери Инновации», реализуемый благотворительным фондом «Пери» предпринимателя Зиявудина Магомедова.

— Интересный и очень ценный для дагестанцев проект. Немало людей работают над сохранением языков Кавказа, но у этих ребят есть преимущество — они не просто оцифровывают словари, а используют современные технологии — приложения, боты, сервисы, удобные для пользователей. У проекта есть все, чтобы пройти наш отбор: профессиональная команда, инновационные технологии, первые готовые продукты и большая социальная, культурная и образовательная ценность, — говорит директор бизнес-инкубатора Гаджимурад Алиев.

Доступно в Google Play

В приложениях «Public dictionary» до сих пор нет ни рекламы, ни платной подписки. В монетизации словарей разработчик не видит смысла.

— Давайте посчитаем: если бы я продавал «Лезгинский словарь», скажем, по доллару, его бы установили раз двести. В итоге я за три года заработал бы 200 долларов. А так его установили только на Android почти 20 тысяч раз, — объясняет Заур.

Гаджимурад Алиев тоже не верит, что на «Public dictionary» можно заработать деньги — по крайней мере, интересные инвесторам.

— Ни сам Заур, ни мы не ставим перед собой цель сделать проект коммерческим. Но думаю, интерес к языкам возрос, особенно после выхода фильма «Прибытие». В фильме раскрывается интересная научная гипотеза лингвистической относительности, широко известная как гипотеза Сепира-Уорфа. Согласно ей, потеряв языки, мы утратим не только основную часть своей культуры, но и идентичность, станем мыслить и действовать по-другому, — говорит директор «Пери Инноваций».

Версия 2.0

Сейчас создатели проекта сосредоточены на обновлении мобильных приложений и сайтов. Скоро у словарей появится новый дизайн, функционал и долгожданная опция — возможность послушать, как звучит слово на родном языке. Заур решил пойти методом краудсорсинга — привлек для озвучки слов самих пользователей, носителей языка.

В октябре 2016 года в Дагестане прошел первый тотальный диктант на родных языках. Более 200 человек писали диктанты на 14 языках. Из них только 10% можно назвать уверенно говорящими носителями.

— Вначале проект назывался «Open dictionary» («Открытый словарь»), но домен был занят, и я выбрал «Public dictionary» — то есть публичный, доступный всем словарь. Профессиональных лингвистов, которые занимаются нашими языками, мало, они сидят в академиях наук и им это не интересно. Мне казалось, это должен быть словарь, в создании которого будут участвовать рядовые носители языка. Но, к сожалению, пока фид-бека от пользователей — в виде добавления новых слов, исправления ошибок — очень мало. Думаю, сбор озвучек как-то их активизирует, — говорит программист.

Заур понимает, что в одиночку проект осуществить невозможно: нужно, чтобы носители языков сами помогали в создании словарных баз. Именно так получилось с агульским, даргинским, лакским языками: ребята искали словари, готовили из них базы данных, а программист внедрял их в боты и приложения. Лет через десять «Public dictionary» может превратиться в большую платформу изучения родных языков по типу Rosetta Stone или Дуолинго. Но только если сами люди захотят сохранить свои языки.

Дмитрий Сафонов

Рубрики

О ПРОЕКТЕ

«Первые лица Кавказа» — специальный проект портала «Это Кавказ» и информационного агентства ТАСС. В интервью с видными представителями региона — руководителями органов власти, главами крупнейших корпораций и компаний, лидерами общественного мнения, со всеми, кто действительно первый в своем деле, — мы говорим о главном: о жизни, о ценностях, о мыслях, о чувствах — обо всем, что не попадает в официальные отчеты, о самом личном и сокровенном.

СМОТРИТЕ ТАКЖЕ
В других СМИ
Еженедельная
рассылка