Microsoft разпознава реч по-добре от човек

      Публикувано на събота, 4 април , 2020      3551 Прегледа     
Microsoft разпознава реч по-добре от човек

  • Матрица

Технологията на Microsoft за разпознаване на устна човешка реч вече се справя с тази задача по-добре от хората.

В процеса на транскрибиране на телефонен разговор системата дава 5,1% грешки – колкото екип от специално обучени хора и по-малко от обикновените хора, при които делът на грешките е 5,9%, съобщават от компанията, цитирани от technews.bg.



Реклама


През септември 2016 г. системата на Microsoft допускаше 6,3% грешки, което по онова време беше световен рекорд за точност при машинно транскрибиране.

Но през октомври компанията намали дела на грешките до 5,9% – точно толкова грешки допуска и средностатистическият човек.

Под дял на грешките се разбира процентът на думите, които се транскрибират неправилно по време на прослушване на телефонен разговор. За проверка на системата Microsoft прилага стандартен тест за правилно разпознаване на реч Switchboard, който се използва широко в тази сфера, вкл. от компании като IBM и Google.

В момента технологията на Microsoft може само да разпознава устна реч и да я представя коректно в писмена форма. Системата все още не е способна да разбере смисъла на думите. Освен това разпознаването е добро само при отчетлив разговор, на качествен запис. При наличие на странични шумове, процентът на грешките нараства.

Преди 20 години делът на неправилно разпознаваните от компютрите думи надвишаваше 43%. Компании от рода на Microsoft и IBM успяха да напреднат в тази сфера, благодарение на дълбоките невронни мрежи, чиято работа наподобява биологичните процеси в главния мозък на човека.

Невронните мрежи се считат за ключова технология не само в разпознаването на реч, но и в разработките на компютърно зрение. Тези мрежи се състоят от няколко слоя, а наскоро Microsoft създаде нов тип връзки между слоевете, благодарение на което спечели конкурса за компютърно зрение ImageNet 2016.

Критично важен компонент в системата за разпознаване на реч е инструментариумът за невронни мрежи Microsoft Cognitive Toolkit 2.1 (CNTK), който задейства дълбоки обучаващи алгоритми. За подобряване на акустичното моделиране също се използва специална невронна мрежа в комбинация с двупосочна краткотрайна памет.

Тласък на разработките даде и паралелната работа на графичните процесори (GPU). Първоначално те бяха създадени за компютърна графика, но в последните години се използват все по-често за обработка на сложни алгоритми, вкл. за разпознаване на реч. В частност, за по-бързо обучение на системата и тестване на нови идеи Microsoft използва облачни Azure GPU решения.



 

Етикети:
Категория Матрица | 2020/04/04 последна редакция в 5:10 PM
Източник : Дир | Снимка : Google
3552 Прегледа



БГ Медия - Медия за Българите в Лондон

Подобни публикации


Живот и Работа в Лондон - Често задавани Въпроси

Актуална и полезна информация за Българите във Великобритания. Новини за Българите в Лондон. Списък с най-често задаваните въпроси за намиране на работа във Великобритания. Полезна информация при подготовка на документи за работа и престой във Великобритания.


Редакционният екип на Е Вести Лондон би искал да предостави на всички свои читатели от Лондон и целия свят възможността да участват активно в развитието на сайта! Ако си видял нещо интересно, забавно, скандално - просто нещо, което си заслужава да видят повече хора. Снимай го и го сподели в Е Вести Лондон заедно с кратък текст.

Имате информация, която искате да достигне до нашите читатели?

Изпрати статия

Спонсорирани връзки