1203 Прегледа


Коментари
Коментирай

Microsoft разпознава реч по-добре от човек


вторник, 20 март , 2018 | Етикети # | 1203 Прегледа | Категория Матрица


Технологията на Microsoft за разпознаване на устна човешка реч вече се справя с тази задача по-добре от хората.

В процеса на транскрибиране на телефонен разговор системата дава 5,1% грешки – колкото екип от специално обучени хора и по-малко от обикновените хора, при които делът на грешките е 5,9%, съобщават от компанията, цитирани от technews.bg.


×
Редакционният екип на Е Вести Лондон би искал да предостави на всички свои читатели от Лондон и целия свят възможността да участват активно в развитието на сайта! Ако си видял нещо интересно, забавно, скандално - просто нещо, което си заслужава да видят повече хора. Снимай го и го сподели в Е Вести Лондон заедно с кратък текст.

През септември 2016 г. системата на Microsoft допускаше 6,3% грешки, което по онова време беше световен рекорд за точност при машинно транскрибиране.

Но през октомври компанията намали дела на грешките до 5,9% – точно толкова грешки допуска и средностатистическият човек.

Под дял на грешките се разбира процентът на думите, които се транскрибират неправилно по време на прослушване на телефонен разговор. За проверка на системата Microsoft прилага стандартен тест за правилно разпознаване на реч Switchboard, който се използва широко в тази сфера, вкл. от компании като IBM и Google.

В момента технологията на Microsoft може само да разпознава устна реч и да я представя коректно в писмена форма. Системата все още не е способна да разбере смисъла на думите. Освен това разпознаването е добро само при отчетлив разговор, на качествен запис. При наличие на странични шумове, процентът на грешките нараства.

Преди 20 години делът на неправилно разпознаваните от компютрите думи надвишаваше 43%. Компании от рода на Microsoft и IBM успяха да напреднат в тази сфера, благодарение на дълбоките невронни мрежи, чиято работа наподобява биологичните процеси в главния мозък на човека.

Невронните мрежи се считат за ключова технология не само в разпознаването на реч, но и в разработките на компютърно зрение. Тези мрежи се състоят от няколко слоя, а наскоро Microsoft създаде нов тип връзки между слоевете, благодарение на което спечели конкурса за компютърно зрение ImageNet 2016.

Критично важен компонент в системата за разпознаване на реч е инструментариумът за невронни мрежи Microsoft Cognitive Toolkit 2.1 (CNTK), който задейства дълбоки обучаващи алгоритми. За подобряване на акустичното моделиране също се използва специална невронна мрежа в комбинация с двупосочна краткотрайна памет.

Тласък на разработките даде и паралелната работа на графичните процесори (GPU). Първоначално те бяха създадени за компютърна графика, но в последните години се използват все по-често за обработка на сложни алгоритми, вкл. за разпознаване на реч. В частност, за по-бързо обучение на системата и тестване на нови идеи Microsoft използва облачни Azure GPU решения.



Етикети:
Категория Матрица | 2018/03/20 последна редакция в 7:00 AM
Източник : Дир | Снимка : Google
1204 Прегледа
Коментари Добави Коментар
Реклама

Коментирай с Фейсбук

Ако сте харесали тази статия, можете да се абонирате за страниците ни във Facebook , Twitter и Google, или да използвате нашия RSS фийд канал, за да четете винаги най-важните новини за Лондон, Великобритания и света.