яндекс переводчик баг с цифрами

«Ать-ать»: попросите переводчик прочитать 78945738793857 (и он не поймет, что происходит)

В 2019 году пользователи Siri обнаружили забавный баг голосовой помощницы: если попросить ее произнести что‑то вроде «Ахахахахххахххахахах», то она издаст какие‑то странные, захлебывающиеся и даже пугающие звуки. Оказывается, в российском «Яндекс.Переводчике» можно получить еще более необычный результат.

Учимся выговаривать цифры с Яндекс эмодзи 1 часть 💪🗿 (идея не моя)

Пользовательница тиктока @thelizamaps1 опубликовала ролик, в котором голос «Яндекс.Переводчика» зачитывает очень длинную последовательность цифр — 627193939303922928272625… — записанную через знак доллара. Сначала механический голос успешно справляется с ней, но потом запинается и произносит странные и забавные звуки: «ать-ать-ати-ати-ати», «эвэ-эвэ» и «два-о-о-о-о».

Эксперимент можно повторить в домашних условиях: достаточно написать в поле перевода с русского любую, но главное, очень длинную последовательность цифр (можно даже обойтись без символа доллара), а потом нажать на значок зачитывания. Работает это только в «Яндекс.Переводчике» — Google Translate спокойно, но не очень выразительно зачитает число любой длины. Компания «Яндекс» не смогла оперативно прокомментировать необычный глитч в голосе «Переводчика».

В разных последовательностях можно получить следующие результаты

— Жуткое дыхание в микрофон.

— В какой‑то момент в механическом голосе можно даже услышать подобие эмоций.

Источник

Баг в Яндекс Переводчик

Всем известно о неточность Гугл и Яндекс переводчиков. Зайдите в Яндекс Переводчик, выберите перевод с русского на английский. Введите такое предложение: Как ты провел время в Харькове (без вопросительного знака) Всё нормально? Да. А теперь поставьте в конце знак вопроса. Волшебным образом Харьков превращается. в КИЕВ. Киев, ё-моё! )))

если переводить «Провел время в Харькове» и добавить знак вопроса, то вообще появляется Донецк

Одно слово румын. Так он же болгарин. А какая разница? (с)

В следующий раз лучше сопровождай текст фоткой, мало кто пойдёт это проверять.

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

Яндекс.Такси обманывает пассажиров?! Шок, скандал, сенсация. Никогда такого не было!

Сегодня состоялась поездка:

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

После завершения заказа стоимость поездки составила 411 рублей.
Итоговая цена оказалась выше на 21%!!
Это немало!!

Если бы не колонна бульдозеров на нашем маршруте, заказ был бы совершен за планируемое время, и ни я, ни пассажир не заметили бы, что цена поездки не фиксированная.

Это не баг и не фича, просто оно так работает.

З.Ы. разницу в стоимости я заставил девушку забрать. Она сопротивлялась.
З.З.Ы. Вернула мне эту разницу через чаевые!! )) Что за человек!!

Источник

«Обонять лесбиячество»: почему нейросеть-переводчик придумывает новые слова

Если вы последние полгода использовали онлайн-переводчики, то могли заметить, что иногда они предлагают странные несуществующие слова. Это результат неудачной работы нейросетей. «Афиша Daily» узнала, почему это происходит, а также собрала самые нелепые переводы и нашла им применение.

Почему Google Translate и «Яндекс.Переводчик» выдают странные слова

«Раньше в больших онлайн-переводчиках вроде «Яндекс.Переводчика» или Google Translate работала статистическая модель перевода, но с недавних пор ее заменили гибридом на основе нейросетей (как в случае «Яндекс.Переводчика») или просто нейросетями (как у коллег из Google), которые в целом показывают лучшие результаты (Google Translate начал переводить с помощью нейросетей с осени 2016 года, на русский язык — с весны 2017-го, «Яндекс.Переводчик» начал пользоваться нейросетями с сентября 2017-го. — Прим. ред.). Это привело к новой категории ошибок переводчика, когда нейросеть, по сути, пытается «придумать» во время перевода новые слова, вместо того чтобы использовать реально существующие. Вот и получается «обонять» вместо «нюхать», «дзюдоки» вместо «дзюдоистов» и так далее.

Причина таких ошибок кроется в самом принципе работы нейросетей с языком. Для них слова не являются единым неприкосновенным целым, как для статистической модели. Вместо этого каждое слово разбивается на несколько составных частей: нейросеть получает таким образом возможность сочинять из кусочков такие слова, которых во время обучения она могла и не видеть. В большинстве случаев это как раз очень хорошо и полезно, ведь позволяет ей учитывать морфологические связи и правильно склонять даже редкие слова, с чем у статистического перевода большие проблемы. Но изредка именно это и приводит к сочинению бессмыслицы».

Какие ошибки делают онлайн-переводчики

Антон Дворкович: «Обратимся к моему любимому примеру, который мы «поймали» в выдаче «Яндекс.Переводчика» еще на этапе тестирования новой технологии: нейросеть решила перевести слово croatians как «хорватаны» вместо «хорватов». Не сложно понять логику такого решения: нейросеть знает, что Croatia переводится как «Хорватия» и примерно понимает, как в русском языке формируются названия национальностей, но здесь система дала сбой — и получилось смешное, хоть и близкое к правильному слово.

Если бы нейросеть не смогла разбить слово на более-менее логичные части, она пошла бы еще дальше и просто применила бы транслитерацию — отсюда большое количество ошибок в нейросетевом переводе, когда незнакомые системе слова превращаются в итоге в своеобразные англицизмы (например, «консалтанты» вместо «консультантов»).

Отдельная тема — когда нейросеть «сходит с ума» и начинает писать полную чушь. Это может произойти, когда сеть получает на вход что‑то необычное: слово, написанное с опечатками, или слово, полностью написанное заглавными буквами. Подобные искажения могут помешать нейросети «узнать» знакомое слово и правильно его обработать».

Как борются с ошибками в машинном переводе

Антон Дворкович: «Во многом поэтому мы в «Яндекс.Переводчике» не бросились сразу применять нейросети для всего перевода, а сделали гибрид из статистической модели и нейросетей, когда перевод выполняют обе модели, а лучший вариант выбирает наш алгоритм CatBoost. Этот подход помогает нам отсеять такие выдуманные слова еще до того, как мы покажем перевод пользователю. Кроме того, работает проверка перевода по языковой модели — это такая большая память из слов и примеров их использования, которая собрана по большому корпусу текстов из всего интернета и которая тоже снижает вероятность таких вот нейросетевых ошибок.

В нашей первой версии новой технологии такие ошибки, которые мы называем стьюпидами, встречались в 7% запросов, сейчас нам удалось уменьшить их количество в восемь раз, то есть осталось около процента. Борьба продолжается, но уже в основном благодаря фидбэку от пользователей. Недавно, например, нейросеть почему‑то решила всегда писать «(Алексей Алексеевич)» (именно в скобках!) перед фамилией определенного человека, нам пришла жалоба, мы все быстро исправили».

Примеры странных и забавных ошибок нейросетей-переводчиков

Агаст

(сущ., от англ. aghast) Жуть, ужас

Аграрник

(сущ., от англ. agrarians) Аграрий, специалист по сельскому хозяйству

Биопия

(сущ., от англ. biopic) Байопик, биографический фильм

Блотировать

(глаг., от англ. blot out) Закрывать что‑либо

Дзюдок

(сущ., от англ. judokas) Дзюдоист

Дискордировать

(глаг., от англ. discord) Разойтись во взглядах

Задушка

(сущ., от англ. stranglehold) Мертвая хватка

Зигзагировать

(глаг., от англ. zigzags) Двигаться зигзагами

Зонтичный

(прил., от англ. umbrella) Общий, обобщающий

Ламбастировать

(глаг., от англ. lambasted) Критиковать, ругать

Лесбиячество

(сущ., от англ. lesbianism) Лесбиянство

Ломбардист

(сущ., от англ. pawnbroker) Ломбард, сотрудник ломбарда

Майна

(сущ. от англ. lane) Полоса на дороге

Морники

(фраз., от англ. good morning) Доброе утро

Обонять

(глаг., от англ. to sniff) Нюхать

Обскурить

(фраз., от англ. skimmed the cream) Снять сливки

Постерный

(прил. от англ. poster) То, что было опубликовано в социальной сети

Ретортировать

(глаг., от англ. retort) Парировать, возражать

Сахариться

(глаг., от англ. sugarcoat) Приукрашать

Сторонировать

(глаг. от англ. reversal) Развернуть

Тайма

(сущ. от англ time) Время

Ушибистость

(сущ., от англ. brutishness) Грубость, брутальность

Травянин

(сущ., от англ. herbalist) Травник

Источник

Как Яндекс помогает преодолеть языковой барьер: нейросетевой перевод видео, картинок и текста

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

Недавно мы впервые показали прототип переводчика видео в Яндекс.Браузере. Прототип работал с ограниченным числом роликов, но даже в таком виде вызвал интерес у пользователей. Теперь мы переходим к следующему ключевому этапу: в новых версиях Браузера и приложения Яндекс перевод доступен для всех англоязычных роликов на YouTube, Vimeo, Facebook и других популярных платформах.

Сегодня я не только расскажу о том, как устроен новый переводчик видео и какие у нас планы, но и поделюсь предысторией. Потому что считаю, что контекст важен: мы шли к этому шагу более десяти лет. Но если история вам вдруг не интересна, то можете сразу переходить к разделу «Перевод видео», где я описал работу технологии (а точнее, целого комплекса наших технологий) по шагам.

Десятью годами ранее

В 2011 году в Яндексе решалась судьба собственного полноценного браузера. На тот момент браузеров на любой цвет и вкус уже хватало. Но почти все они создавались «где-то там»: без оглядки на рунет и потребности тех пользователей, для которых английский язык и латиница не были родными. Поэтому мы решили создать свой браузер, который бы в числе прочего более полно поддерживал русский язык и наши с вами «региональные» потребности. Уверен, эта фраза звучит непонятно, поэтому ниже вас ждут два моих любимых примера. Они не связаны с переводом, но показательны.

Русский язык отличается богатой морфологией. Падежи, род, бо́льшая свобода в построении предложений — всё это приводит к разнообразию форм одного и того же слова и способов написать одну и ту же фразу. При этом классический поиск по странице, который работает одинаково во всех известных мне браузерах, умеет искать только точные вхождения слов в тексте. Наш поиск работает гибче и учитывает морфологию русского языка. Наглядный пример:

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

Кстати, этой фиче был посвящён мой самый первый пост на Хабре в 2013-м. Как будто вчера это было.

Что будет, если ввести в адресную строку [ь]? Скорее всего, браузер предложит вам отправиться в поисковую систему и поискать там мягкий знак. Но чего на самом деле хотел человек, который набрал [ь]? Ответ: вероятно, он привык ходить на [m.habr.com] или [maps.yandex.ru], но забыл переключить раскладку на клавиатуре.

В отличие от англоязычной аудитории, нам с вами приходится жить в мире двух алфавитов и постоянно переключаться между ними. Это приводит к ошибкам. А ошибки приводят к выбору: или ввести адрес заново, или совершить лишний переход в поисковую систему. Мы — за экономию времени, поэтому учли подобные ошибки с раскладкой ещё в самой ранней версии 2012 года. В таких ситуациях Яндекс.Браузер исправляет раскладку «в уме» и предлагает перейти не в поиск, а сразу и в один клик — на нужный сайт.

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

Таких примеров много, но думаю, суть я передал. В любом случае все они меркнут на фоне главной проблемы, которой мы бросили вызов: проблемы языкового барьера.

Перевод текста

В интернете более миллиарда сайтов, но лишь около 9% — на русском языке. Интернет быстро растёт, но опять же — в основном за счёт иностранных сайтов. Информация, которая создаётся там, недоступна для большинства наших пользователей здесь.

Ещё тогда — в 2011-м — мы решили изменить это и помочь распространению знаний между пользователями. К счастью, в том же году появился Яндекс.Переводчик (тогда он ещё назывался Яндекс.Перевод). В его основе была технология статистического машинного перевода собственной разработки. Мы применили её и в Яндекс.Браузере. Да, мы не были первыми: Chrome уже умел подобное. Но в нашем случае переводчик работал с одной актуальной для рунета особенностью.

Большинство из нас с детства учит английский язык. Кто-то овладел им в совершенстве, но многие знают его достаточно фрагментарно, на уровне «читаю и пишу со словарём». Поэтому для нас особенно полезна возможность переводить не только страницы целиком, но и отдельные фразы и слова. Так мы пополняем словарный запас, продолжаем совершенствовать знания. Так оно и работает в Яндекс.Браузере с первого дня его существования.

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

Перевод картинок

Перевод текста — это хорошо. Но мы не должны забывать, что текст встречается ещё и на изображениях. Например, заметная часть сайтов израильских государственных организаций предпочитает именно такой способ размещения информации. Похожую картину можно увидеть на корейских, китайских, арабских сайтах. Аналогичная ситуация с техническими характеристиками товаров в иностранных интернет-магазинах.

Особенность этой задачки в том, что для её решения нужно объединить три технологии, которые отрабатывают последовательно. Сначала с помощью компьютерного зрения найти текст на картинке и распознать его в текстовый формат (OCR), затем с помощью машинного перевода перевести текст на русский язык, ну а вишенка на торте — рендеринг перевода поверх оригинальной картинки. Тут на каждом шаге можно закопаться в самостоятельную статью, поэтому я расскажу про самое неочевидное: про то, как мы боролись за экономию ресурсов.

Итак, можно взять исходную картинку, отправить в оригинальном виде из Браузера к нам на сервер, там проделать всю-всю работу, затем вернуть вариант с уже отрисованным переводом. Это самый простой для нас вариант. Но самый плохой для пользователя. Потому что картинки в интернете могут весить очень много. Их пересылка туда-обратно — это не только трафик, но и время, а значит, тормоза в продукте.

Чтобы не раздражать пользователей, мы пошли другим, сложным путём. На стороне Яндекс.Браузера уменьшаем картинки и переводим их в чёрно-белое представление. Кроме того, формат картинки меняем на WebP, который в среднем весит на 15–20% меньше, чем JPEG. В совокупности эти меры снизили вес картинок в несколько раз. При этом качество распознавания и перевода ощутимо не упало.

Этап объединения исходной картинки с переводом мы тоже перенесли на устройство. И вот тут возникла сложность. У Браузера есть исходная, цветная картинка и текст перевода. Если просто взять и наложить чёрный (белый?) текст на цветную картинку, то в большинстве случаев получится жуть. А мы не для того длину текста и переносы строк подгоняем под оригинал, чтобы испортить всю магию цветом шрифта.

Итак, нам нужно подогнать цвет перевода под цвет оригинала. Но Яндекс.Браузер не различает текст и фон на исходной картинке, а значит, не может выбрать цвет для перевода. Наш серверный OCR видит текст, но не видит цвета, которые были потеряны в результате конвертации в ч/б.

Придумали следующее. На стороне OCR выделяем ключевые точки на картинке для фона и текста. Отправляем их координаты Браузеру вместе с переводом. Браузер на своей стороне по этим координатам определяет цвета. И уже затем выбирает для перевода цвет, который накладывается на фон.

Получилось в целом неплохо:

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

Перевод картинок работает на десктопе и устройствах с Android. В ближайшем будущем добавим и iOS. Ну и конечно же, продолжим совершенствовать распознавание и перевод.

Перевод видео

У нас была давняя мечта: научиться переводить ещё и видео. Люди всё чаще смотрят образовательные и научно-популярные ролики, интервью, репортажи и многое другое. Бо́льшая часть подобных видео создаётся не на русском языке. Профессиональный перевод — редкость для свежего контента в интернете. В лучшем случае пользователи получают автоматически сгенерированные субтитры. Мы же решились замахнуться на большее: на автоматический перевод и озвучку любого видео прямо в браузере.

Как и в случае с картинками, для решения этой задачи одного только машинного перевода недостаточно. Качество перевода видео сильно зависит от качества распознавания и синтеза речи. К счастью, запуск Алисы и наших умных колонок здорово подстегнул развитие этих технологий в Яндексе. Настолько, что в сентябре прошлого года мы решились запустить проект. Казалось бы, остаётся только соединить все технологии в общий процесс. Какие тут могут быть сложности, не правда ли? Сейчас расскажу какие, описав процесс по шагам (а в конце рассказа вас ждёт простая наглядная схема).

Шаг 1. Распознавание речи и предобработка текста
Пользователь нажимает кнопку переводчика, и мы начинаем обрабатывать ролик.

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

У нас на входе есть какое-то видео с какими-то голосами. Это может быть образовательный ролик с одним ведущим. Это может быть интервью из двух человек. А может быть и вовсе многоголосая дискуссия. Если просто перевести поток речи в текст, то получится сырой набор слов. Без запятых, без точек, без логической группировки слов в предложения, а предложений — в абзацы. И если прогнать такой текст через переводчик, то результат будет в полной мере соответствовать принципу GIGO. Поэтому мы не только превращаем аудио в текст, но и запускаем специальную нейросеть, которая вычищает мусор, группирует слова в смысловые сегменты и расставляет знаки препинания.

Кстати, мы опираемся не только на голос, но и на субтитры. Решили так: если человек загрузил к видео субтитры — то распознавание не используем: ведь тексты, написанные людьми, обычно более качественные, чем тексты на выходе у ASR. Но если субтитры сгенерированы автоматически, то игнорируем их и применяем свою технологию.

При этом даже ручные субтитры нужно пропускать через ту самую нейросеть. Как минимум потому, что в них бывает много текста, который не нужен для синтеза голоса. Например, описание звуков (*аплодисменты*, *звук сирены* и т. д.) или указание имени спикера перед каждой фразой.

Кроме того, ручные субтитры могут быть нарезаны на строки не по границам фраз, а произвольно. Приходится пересобирать текст из разных строк. Покажу пример:

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

На скриншоте выше вы видите две строки субтитров. Раньше мы их так (построчно) и переводили. Но на самом деле это фрагменты двух предложений, начало и конец которых прячутся в соседних строках:

The output from my scanning electron microscope is than oscilloscope screen.
So I set that up and adjusted the contrast and everything.

И вот такие вещи надо уметь восстанавливать, иначе смысл перевода исказится до неузнаваемости.

Шаг 2. Биометрия
Итак, у нас на руках части неплохого текста и тайминги, которые нам ещё пригодятся. Что дальше? Перевод?

Нет: мы ещё больше усложнили себе задачку. Мы хотим, чтобы голоса у спикеров были разными: так проще воспринимать речь. Мы планируем адаптировать синтезированный голос к голосу спикера. Но на текущем этапе у нас более простое решение: мы определяем пол говорящего для каждой части текста, чтобы озвучивать их мужским или женским голосами.

Шаг 3. Машинный перевод
Теперь пора переводить. Тут в целом всё происходит достаточно стандартно, но с одной важной особенностью: мы передаём в модель переводчика ещё и информацию о спикерах, об их поле. Это нужно для того, чтобы в переводе разные спикеры говорили о себе или обращались к другим с корректным согласованием местоимений, глаголов и прилагательных.

Шаг 4. Синтез речи
Переходим к синтезу голоса. Сейчас у нас два голоса, дальше станет больше. Но самая большая сложность вовсе не в этом. Тексты на русском языке длиннее, чем на английском. Разница может составлять в среднем от 10 до 30%. Это значит, что при длительном воспроизведении мы рискуем словить существенный рассинхрон между тем, что говорит спикер на английском, и тем, что мы произносим на русском. Значит, нужно синхронизировать два потока речи. И нет, мы не стали фиксированно ускорять одну дорожку относительно другой.

Помните, чуть выше я уже говорил про тайминги, которые мы получили после анализа исходной речи? Благодаря им мы знаем, какие фразы в какой момент должны произноситься. Это позволяет нам синхронизировать речь более гибко. Работает это так. Синтез речи — многоступенчатый процесс, в котором можно выделить два самых больших этапа. На первом мы с помощью нейросетей представляем текст в виде промежуточной спектрограммы. На втором с помощью других нейросетей превращаем спектрограммы в звук. Мы используем тайминги на первом этапе, чтобы сгенерировать спектрограмму нужной длительности. При этом ускорение в первую очередь достигается за счёт сокращения бесполезных пауз между фразами и словами. И только если этого недостаточно, алгоритм ускоряет сами фразы.

Шаг 5. Уведомления
Ура, у нас готов перевод, его можно включить в Яндекс.Браузере. Расходимся? А вот и нет. Мы выстроили целый каскад из тяжёлых технологий, которые последовательно сменяют друг друга. Требуется время на работу огромных нейросетей-трансформеров, даже с учётом их распараллеливания на GPU. К примеру, когда мы делали первый подход к снаряду и собрали быстрый внутренний прототип, то видео длиной в час переводили целых полчаса. Нам удалось оптимизировать всё это дело и ускорить переводчик в несколько раз, но это по-прежнему минуты, а не мгновения. Над мгновенным переводом мы продолжаем работать, а сейчас придумали такую схему: мы не только говорим пользователю, что нужно немного подождать, но и присылаем пуш-уведомление о готовности. Такое решение удобно: можно запросить перевод, закрыть вкладку и уйти заниматься своими делами. Браузер переведёт и напомнит.

Вместо заключения

Вот наглядная схема всего процесса перевода видео:

яндекс переводчик баг с цифрами. Смотреть фото яндекс переводчик баг с цифрами. Смотреть картинку яндекс переводчик баг с цифрами. Картинка про яндекс переводчик баг с цифрами. Фото яндекс переводчик баг с цифрами

Чуть ниже вас ждёт образец готового перевода на примере фрагмента лекции Джимми Уэйлса в Яндексе (оригинал тут). Этот фрагмент хорошо демонстрирует не только потенциал нашей технологии, но и проблемы, над которыми мы будем работать дальше.

Сейчас перевод видео доступен для английского языка и популярных сервисов. Он работает в Яндекс.Браузере для десктопа и Android, а также в приложении Яндекс для Android и iOS.

Хочется верить, что наше решение поможет пользователям хотя бы частично преодолеть языковой барьер и открыть для себя новый полезный контент, для которого ещё нет профессионального перевода. Мы продолжим совершенствовать перевод видео. У нас ещё очень много работы, поэтому любые идеи приветствуются.

Источник

Будущее близко: стираем языковые границы

С каждым днём в интернете становится всё больше интересного и полезного видео: от развлекательных шоу до образовательных курсов. При этом большая часть материалов выходит на иностранных языках и недоступна пользователям из России из-за языкового барьера. Мы близки к тому, чтобы снять этот барьер, и представляем вам первую версию машинного перевода видео.

Перевод доступен в Яндекс.Браузере. Смотрите сами — вот как выглядят оригинальное и переведённое видео:

Оригинальное видео

Видео, переведённое Яндекс.Браузером. Мы записали скринкаст, чтобы посмотреть можно было в любом браузере

Перевод видео — это большая и сложная задача, для решения которой объединили усилия разные команды. Мы начали с перевода видео на английском языке. Для этого задействовали технологии Яндекс.Переводчика, речевые технологии и биометрию — она помогает определить пол говорящего, что важно и для перевода, и для синтеза речи. Женщин переводит женский голос, мужчин — мужской.

Переведённые реплики нужно наложить на видео. Это тоже не так-то просто — длина одной и той же фразы, произнесённой на разных языках, может отличаться. Например, в русском языке фразы обычно длиннее, чем в английском. Поэтому мы где-то ускоряем, а где-то замедляем речь или делаем паузы. В итоге получается самый настоящий закадровый перевод.

Яндекс.Браузер уже давно умеет переводить тексты. Недавно мы добавили в него перевод картинок, а сегодня — и перевод видео. Это последняя часть мозаики: теперь пользователи Браузера смогут переводить разные типы контента и свободно чувствовать себя на любых сайтах.

Разработка машинного перевода видео ещё продолжается. Каким он будет, во многом зависит от ваших отзывов и предложений. Чтобы вы могли оценить качество перевода, мы отобрали интересные англоязычные ролики и перевели их с помощью нашей технологии. Перевод доступен в Яндекс.Браузере для Windows и macOS. Открывайте Браузер, смотрите видео и делитесь впечатлениями.

жаль нельзя хотя бы 1 раз попробовать свой ролик подсунуть )) у меня не бета.

Хочется пожелать разработчикам всяческих успехов 🙂

1. Не является ли все ЭТО маркетинговым трюком с целью быстро (пусть и с обманом) втюхать паре новых миллионов юзеров Яндекс-браузер, которые ранее просто были не лояльны ему? Есть ли четкое понимание внутри команды, что если вскоре Яндекс не даст обещанный результат в расширении видео, с которым данная функция работает (до тысяч или сотен тысяч единиц, а лучше вообще на любое англоязычное видео, для начала хотя бы на ютубе, как и заявлено), то Яндекс серьезно ударит сам по своей же репутации? И в следующий раз добиваться лояльности вновь прибывших юзеров ему будет уже на порядок сложнее.

Если же этот сервис планируется сделать доступным только через браузер, то, боюсь, это будет крайне проигрышный вариант. За последние несколько лет, как я в последний раз юзал ваш браузер, он, конечно, стал намного лучше. Но все равно, чтобы я на него с концами перешел, должно пройти много времени и на это должно повлиять еще много других факторов. Например, у нас в Украине, где многие сервисы Яндекса не доступны без vpn, хотелось бы, чтобы в вашем браузере уже был встроен какой-то vpn-движок хотя бы для сервисов самого Яндекса(!), как это есть, например, у той же Оперы. Не уверен, в курсе ли в головном офисе Яндекса, что многие сервисы самого Яндекса доступны с территории Украины благодаря встроенному vpn через Оперу, но они же не работают через сам Яндекс-браузер?))) Например, ваш встроенный в броузере переводчик сайта вообще не работает из Украины. Можно ли сделать то же самое в браузере самого Яндекса для той же Украины (как у Оперы), где у вас по-прежнему проживают десятки миллионов(!) вполне лояльных и активных русскоязычных юзеров, но где туземное правительство продолжает дикую политику блокировки ваших сервисов? Трудно ли догадаться об этой проблеме за уже столько лет блокировки ваших сервисов и просто скопировать опыт той же Оперы?

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *