Мое дело
Отвечает за слова
20 марта, 2017
8822
Дагестанский программист Заур Агамов работает в Дубае — создает боты для крупных компаний. А в свободное время спасает от забвения исчезающие языки. Если вы носитель — присоединяйтесь

Согласно данным ЮНЕСКО, 19 дагестанских языков находятся под угрозой исчезновения, еще 6 внесены в категорию «уязвимых». До недавнего времени словари этих языков существовали только в виде печатных книг, к которым молодежь, привыкшая к гаджетам, обращалась все реже. Программист Заур Агамов устроил дагестанским языкам «апгрейд», создав некоммерческий проект по сохранению языков «Public dictionary». Это бесплатные приложения-словари для смартфонов, сайты и телеграм-боты. Они помогают совершенствовать свой язык, общаться, а школьники пользуются ими, когда делают домашнюю работу по родному языку.

Для дела и души

Заур Агамов родился и вырос в Дагестане. Родной лезгинский язык знает с детства — он всегда звучал и дома в Махачкале, и в селе, где он проводил каникулы. В школе Заур увлекался не только языками программирования, но и просто языками. Выигрывал городские олимпиады по математике и английскому. После второго курса матфака Заур перевелся из дагестанского вуза в питерский Электротехнический университет, окончил его, работал в «Яндексе» и других компаниях. В 2012-м получил интересное предложение из Дубая. После холодного Питера южному человеку захотелось побольше солнца — так он объясняет свой переезд в Эмираты.

— Начиналось все как хобби-проект. Первое приложение — «Лезгинский словарь» написал в 2014-м для души. Хотя для программиста считается хорошим тоном, когда есть собственные проекты, — рассказывает Заур. — На создание первого приложения ушло много сил. У меня был вордовский файл с лезгинским словарем, который совершенно не выглядел как база данных. Пришлось вручную размечать: тут — слово, тут — перевод. Через две недели тупой однообразной работы шея разболелась так, что я три дня лежал на больничном.

Версию для iOS Зауру помог написать друг-айфонист. А потом пошли просьбы сделать то же самое и для других языков. Просили башкиры, чуваши, ногайцы, даже носители такого редкого языка, как гагаузский.

— Я увидел, что приложениями активно пользуются, и мне самому стало интересно, захотелось продолжить, — говорит программист.

Без лишних слов

Сегодня «Лезгинский словарь» установили около 20 тысяч раз на Android и примерно столько же на IPhone. Рейтинг приложения в Play Market — 4,7 из 5, в App Store — 4,5. Помимо него, доступны словари кумыкского, башкирского языков, и карачаево-балкарский, пока только в виде сайта. Ежедневно ко всем сервисам Заура обращается порядка тысячи человек.

Сейчас проект сосредоточен на дагестанских языках: к маю разработчик планирует создать онлайн-словари аварского, агульского, даргинского, лакского, рутульского и табасаранского языков. Восемь приложений будет работать на Android, iOS, кроме того, будет 8 сайтов, 8 телеграм- и фейсбук-ботов. Своей очереди ждут исчезающие ногайский и цахурский языки. Впрочем, Заур не собирается ограничиваться Дагестаном. «Public dictionary» нацелен охватить как можно больше российских языков, независимо от того, грозит им исчезновение или нет.

Параллельно с этим Заур вместе с питерской командой разработчиков создает анимированные азбуки крупных языков в виде мобильных приложений. Программист пытался найти финансирование на разработку лезгинской азбуки, но безуспешно, — пока есть только демо-ролик на YouTube.

— Скоро выйдет арабская азбука, и мы с депутатом Народного собрания Дагестана Тимуром Гусаевым обсуждаем возможность создания азбук дагестанских языков. Опять же, если найдем финансы, ведь к каждой букве — а их в ряде дагестанских алфавитов больше 40 — нужно нарисовать новые сценки, оплатить работу программистов, — объясняет разработчик.

Бот-аварец и бот-даргинец

Сейчас Заур работает в дубайском стартапе Brndstr — делает ботов для фейсбука, твитера, телеграма. В числе последних клиентов стартапа — такие бренды, как Volkswagen, British Airways, Huawei.

По словам разработчика, боты — новый тренд.

— Это автоматизированный собеседник, который умеет читать входящие сообщения и отвечать на них. В случае с ботом-лезгином он понимает, что вы отправили ему слово на русском и высылает перевод. И наоборот, — объясняет Заур Агамов.

Сейчас в телеграме доступны боты аварского, лезгинского, кумыкского, лакского, агульского и даргинского языков. Их аналоги скоро появятся в фейсбуке.

«Ле, Гугл! ВорчIами!»

В переводе с аварского это означает: «Эй, Гугл! Здравствуй!» Но в ближайшие годы голосовые помощники вроде Google Now или Siri вряд ли научатся воспринимать дагестанские языки. Чтобы обучить машину пониманию устной речи, нужен очень большой объем звуковых данных.

— Мы на слух воспринимаем только 70% речи, остальное мозг домысливает по контексту. Поэтому, например, для английского языка одно слово озвучивается 1000−2000 раз. Потом 10−20 лингвистов пишут правила генерации. Такого звукового материала у меня нет, и вряд ли будет. Для дагестанских языков это представляет только академический интерес. В случае с большими языками — английским, русским, где сотни миллионов носителей, в этом есть экономический смысл: можно создать навигаторы, голосовой поиск. Поэтому корпорации вроде Google и Яндекса готовы тратить на это время и деньги, — говорит о технологии Заур. — Для «малых» языков это неактуально.

Трудности перевода

Каждый дагестанский язык — отдельный космос со своими законами пространства и времени. Например, в табасаранском языке 48 падежей. В аварском и лезгинском считают двадцатками, а не десятками. В языках горцев учитываются не только привычные род и число, но и месторасположение собеседника — под горой он стоит или на горе, и на какой именно высоте. Попробуйте-ка обучить такому робота-переводчика!

Заур убежден: создать хороший переводчик, способный переводить целые фразы на языках Дагестана, — нереально. Система машинного перевода учится на огромных корпусах параллельных текстов. Это не просто вордовские файлы с текстами — лингвист должен разметить каждое слово: здесь существительное, здесь глагол; тут корень, тут окончание. Таких объемов контента даже у самых крупных народностей Дагестана попросту нет. Попытку создать подобный переводчик сделал талантливый программист Омар Ганиев, автор сайта dalang.ru, но система хромает — переводчик не на чем обучать.

— Я работал в компании, которая создавала арабский переводчик. В офисе сидели семь лингвистов, в течение двух лет с утра до вечера они писали правила перевода в приложении, типа: «Если предложение начинается так, то окончание у слова будет такое». Это сумасшедший объем работы. Если кто-то и сделает переводчик дагестанских языков, то энтузиасты вроде меня. Но и качество будет соответствующее, — говорит Заур.

Все, кроме денег

Сейчас над «Public dictionary» работают трое: Заур Агамов, iOS-программист Александр Михайлов и дизайнер Олег Данилов. Для всех это хобби. Расходы Заур покрывает из собственного кармана. Сам платит за хостинг сайта, за лицензию в App Store. Разработчик неоднократно обращался в различные фонды в Дагестане, но поддержки не находил.

— Я знаю, что в Дагестане есть государственные гранты на подобные проекты. Но проблема в том, что я не умею просить. В республике не живу с 18 лет, мне сложно понять местную специфику. В Дагестане, даже если у тебя хороший проект, но ты пришел с улицы и попросишь деньги, тебе их никто не даст, — рассказывает программист про свой опыт.

В этом году он подал заявку в седьмой набор резидентов бизнес-инкубатора «Пери Инновации», реализуемый благотворительным фондом «Пери» предпринимателя Зиявудина Магомедова.

— Интересный и очень ценный для дагестанцев проект. Немало людей работают над сохранением языков Кавказа, но у этих ребят есть преимущество — они не просто оцифровывают словари, а используют современные технологии — приложения, боты, сервисы, удобные для пользователей. У проекта есть все, чтобы пройти наш отбор: профессиональная команда, инновационные технологии, первые готовые продукты и большая социальная, культурная и образовательная ценность, — говорит директор бизнес-инкубатора Гаджимурад Алиев.

В приложениях «Public dictionary» до сих пор нет ни рекламы, ни платной подписки. В монетизации словарей разработчик не видит смысла.

— Давайте посчитаем: если бы я продавал «Лезгинский словарь», скажем, по доллару, его бы установили раз двести. В итоге я за три года заработал бы 200 долларов. А так его установили только на Android почти 20 тысяч раз, — объясняет Заур.

Гаджимурад Алиев тоже не верит, что на «Public dictionary» можно заработать деньги — по крайней мере, интересные инвесторам.

— Ни сам Заур, ни мы не ставим перед собой цель сделать проект коммерческим. Но думаю, интерес к языкам возрос, особенно после выхода фильма «Прибытие». В фильме раскрывается интересная научная гипотеза лингвистической относительности, широко известная как гипотеза Сепира-Уорфа. Согласно ей, потеряв языки, мы утратим не только основную часть своей культуры, но и идентичность, станем мыслить и действовать по-другому, — говорит директор «Пери Инноваций».

Версия 2.0

Сейчас создатели проекта сосредоточены на обновлении мобильных приложений и сайтов. Скоро у словарей появится новый дизайн, функционал и долгожданная опция — возможность послушать, как звучит слово на родном языке. Заур решил пойти методом краудсорсинга — привлек для озвучки слов самих пользователей, носителей языка.

— Вначале проект назывался «Open dictionary» («Открытый словарь»), но домен был занят, и я выбрал «Public dictionary» — то есть публичный, доступный всем словарь. Профессиональных лингвистов, которые занимаются нашими языками, мало, они сидят в академиях наук и им это не интересно. Мне казалось, это должен быть словарь, в создании которого будут участвовать рядовые носители языка. Но, к сожалению, пока фид-бека от пользователей — в виде добавления новых слов, исправления ошибок — очень мало. Думаю, сбор озвучек как-то их активизирует, — говорит программист.

Заур понимает, что в одиночку проект осуществить невозможно: нужно, чтобы носители языков сами помогали в создании словарных баз. Именно так получилось с агульским, даргинским, лакским языками: ребята искали словари, готовили из них базы данных, а программист внедрял их в боты и приложения. Лет через десять «Public dictionary» может превратиться в большую платформу изучения родных языков по типу Rosetta Stone или Дуолинго. Но только если сами люди захотят сохранить свои языки.

ЕЩЕ МАТЕРИАЛЫ
Еда без ничего. Как живет единственная на Северном Кавказе сертифицированная пекарня без глютена
Как диагноз ребенка подтолкнул инженера из Ставрополя открыть пекарню для тех, кому даже крошка обычного хлеба может быть опасна для жизни
Сила воды: как рождается дагестанская минералка
От древних горных источников до современных заводов — рассказываем, как добывают и разливают легендарные воды
Герой России Хантемир Султанов: «Мы защищаем свою Родину, а значит, и свою семью»
В преддверии Дня Героев Отечества мы пообщались с подполковником Хантемиром Султановым — отважным сыном Дагестана, чья жизнь стала олицетворением беспримерного мужества
Тропики на шести сотках
Киви, миндаль, фисташки, авокадо, финики и ягоды годжи из собственного сада во Владикавказе — не утопия, а реальность для агронома Валерия Кабанова
Вросшие в камень: кафе и рестораны в необычных местах Кавказа
В регионах СКФО архитектура не пытается подчинить себе природу, а учится у нее. Кафе и рестораны, словно выросшие из скал, доказывают: на Кавказе даже камень становится частью уютной атмосферы
Полная версия