Hlavní stránka Hardware Procesory, paměti Rozhovor: procesor Cell a rozpoznávání hlasu
Rozhovor: procesor Cell a rozpoznávání hlasu
autor: d@rI( , publikováno 9.9.2008
Seznam kapitol
1. Část první
2. Část druhá
Rozhovor: procesor Cell a rozpoznávání hlasu

Málokdo nejspíš tuší, že v Praze sídlí tým vývojářů společnosti IBM, který se zabývá problematikou rozpoznávání hlasu. Výzkumná skupina velkým dílem přispívá k vývoji pokročilého programu IBM Embedded ViaVoice a jedním z jejích členů je i Bořivoj Tydlitát, který nám laskavě poskytl rozhovor.


Bezcílné bloumání světovou sítí může čas od času přinést své ovoce. To takhle hledáte nějaké zajímavosti o procesoru Cell, když narazíte na odbornou práci výzkumníků IBM zabývající se možnostmi zpracování hlasu pomocí tohoto supervýkonného kusu křemíku. Čtete, čtete, rozumíte tomu asi jako koza barevné televizi, když v tom se z modrých virtuálních nebes přiřítí z ničeho nic záchrana: v seznamu autorů je vidět česky znějící jméno. Bořivoj Tydlitát. Tomuhle pánovi se prostě musí napsat. A pan Tydlitát je nejen tak ochotný, že odpoví na email, ale navíc souhlasí s nabídkou rozhovoru, který by osvětlil činnost jeho českého IBM týmu v oblasti rozpoznávání hlasu a možností procesoru Cell v této oblasti.

Rozhovor: procesor Cell a rozpoznávání hlasuMůžete se prosím čtenářům na úvod představit? Kolik je vám let, co jste studoval, kde jste pracoval před příchodem do IBM a jak jste se vlastně do IBM dostal?

Je mi 45 let. Od dětství jsem se zajímal o matematiku a přírodní vědy. Původně jsem chtěl studovat fyziku, ale s ohledem na rodinné zkušenosti s politickou perzekucí jsem se raději orientoval na kariéru v průmyslu a vystudoval jsem obor Elektronické počítače na fakultě elektrotechnické  ČVUT v Praze. Jako absolvent techniky jsem se začal věnovat aplikacím výpočetní techniky v medicíně a poté jsem se v několika firmách jako softwarový inženýr podílel na vývoji různých měřicích, diagnostických a informačních systémů. Do výzkumné skupiny v IBM Česká Republika jsem nastoupil v roce 1997.


Nějaký čas jste strávil také ve výzkumném centru IBM Thomase J. Watsona. Jakou zkušenost jste si odtamtud odnesl, ať už ve vztahu ke svému oboru nebo ke způsobu práce v zahraničí?


Ano, v letech 1998-2000 jsem byl na stáži v IBM T.J.Watson Research Center. Toto středisko v Yorktown Heights ve státě New York je nejstarší a největší z výzkumných laboratoří firmy. Je to prestižní pracoviště, mezi jeho zaměstnanci bylo několik nositelů Nobelovy ceny. Například zde vznikl i známý šachový počítač Deep Blue, který v roce 1997 porazil tehdejšího šachového velmistra Garryho Kasparova. Pracoval jsem ve skupině Human Language Technologies (HLT). Tento tým vznikl koncem 60. let s cílem vyřešit problém strojového rozpoznávání řeči. Kolegové zde vykonali mnoho průkopnické práce a učinili některé zásadní objevy, především v oblasti statistických metod, které dnes patří mezi klasické techniky oboru. Moje práce v HLT se týkala především aplikací rozpoznávání řeči v telefonii a vývoje technologií pro porozumění řeči a řízení dialogu. Byla to velká zkušenost v mnoha směrech: poznání moderních technologií, vhled do fungování špičkového vědeckého pracoviště, setkání s řadou mimořádně inteligentních a vzdělaných lidí z celého světa. Zároveň jsem ale také poznal, že za ČVUT se nemusím stydět ani před absolventy škol mnohem zvučnějších jmen.

Jaký je v současné době váš hlavní obor výzkumu, čím se váš pražský tým konkrétně zabývá a jaký je význam těchto projektů vzhledem k celkové strategii společnosti IBM?

Rozhovor: procesor Cell a rozpoznávání hlasuOddělení Voice Technologies and Systems, ve kterém zde v Praze pracuji od návratu z USA, se zabývá rozpoznáváním řeči, jeho aplikacemi a integrací řečových technologií do uživatelského rozhraní různých systémů. Skupina dnes nese i velký kus odpovědnosti za vývoj produktu IBM Embedded ViaVoice (EVV). Je to software pro vývoj řečových aplikací zaměřený na přenosné a zabudované systémy, jako jsou například palubní počítače v autech, výkonné mobilní telefony nebo kapesní počítače a organizéry. EVV obsahuje technologie pro rozpoznávání, syntézu a porozumění řeči. Zde je možná vhodné udělat terminologickou odbočku: zjednodušeně, rozpoznávání řeči znamená převod mluveného slova do textu – „počítač slyší“. Syntéza řeči pak je převod textu na řeč – „počítač mluví“. A o porozumění řeči nebo textu mluvíme tam, kde stroj dokáže mluvenou nebo psanou větu interpretovat – třeba jako informaci, příkaz nebo otázku. Technologií zpracování lidské řeči nebo přirozeného jazyka je ovšem více: patří sem třeba ještě strojový překlad, indexování, segmentace a vyhledávání v záznamech řeči, ověření identity nebo identifikace řečníka a třeba i schopnost vést omezený dialog.

Rozpoznávání hlasu bylo v 90. letech považováno za jeden z nejbližších milníků světa počítačů. Leč, nestalo se tomu tak, a ovládání hlasem stále zůstává spíše na pokraji zájmu uživatelů a firem. Proč myslíte, že tomu tak je?

Samozřejmě, laťka, kterou tomuto oboru nastavili autoři science fiction, je a ještě dlouho bude příliš vysoká. Jinak musím ale trochu oponovat – technologie kolem řeči a dialogu právě v 90. letech dosáhly úrovně, která jim otevřela cestu z laboratoří k obchodnímu využití. Asi nejvýraznějším příkladem jsou dialogové systémy pro telefonii. Ovládání hlasem se dnes často používá u automobilů. Především v USA a Japonsku je poměrně běžné, že můžete v autě ovládat hlasem třeba klimatizaci, rádio, navigační systém či mobilní telefon. To, že u nás se s takovými produkty téměř nesetkáte, souvisí i s tím, že čeština je „malý“ jazyk a vývojáři technologií a aplikací ji proto zatím podporovali jen málokde.

Můžeme se výraznějšího využití hlasu dočkat v následujících letech v osobních digitálních asistentech, PDA, GPS, mobilech a podobně? Případně je podle vás pravděpodobné, že se někdy rozpoznávání hlasu masově uchytí také u běžných stolních či přenosných počítačů jak je známe dnes?

Rozhovor: procesor Cell a rozpoznávání hlasuVýkon procesorů přenosných a kapesních zařízení bývá dnes již dostatečný a příslušné řečové technologie jsou k dispozici i pro běžné „kapesní“ platformy. Třeba již zmíněný produkt Embedded ViaVoice podporuje například procesory  ARM, SH-4 nebo PowerPC a operační systémy Windows CE, QNX, Linux nebo T-Engine. Efektivní a užitečná integrace řečových technologií do uživatelských rozhraní různých systémů je často ale překvapivě obtížnou úlohou. Přesto očekávám, že podobně, jako se to již stalo u automobilů, i výrobci přenosných systémů postupně identifikují aplikace, kde ovládání hlasem může být realistickou a výhodnou alternativou. Ostatně již se tomu to děje – existují hlasem ovládané aplikace pro sběr dat v terénu nebo inventarizaci ve skladech. Americké jednotky v Iráku používají ke komunikaci s obyvatelstvem přenosný systém vyvinutý v laboratořích IBM, který překládá řeč z angličtiny do arabštiny a naopak. Pokud jde o klasické stolní počítače – první komerční aplikace rozpoznávání řeči v 90. letech byly určeny právě pro „desktop“: typicky podporovaly diktování textu a ovládání operačního systému a aplikací. Důvod, proč se příliš neujaly, je asi dvojí – pokoušely se řešit příliš obtížnou úlohu, na kterou uspokojivě nestačí ani dnešní technologie. A navíc tyto systémy musely soutěžit s klasickými metodami vstupu klávesnicí a myší, které již mají za sebou desetiletí či – v případě klávesnice – století vývoje. Jak jsem zmínil, otázka, jak efektivně integrovat řeč do klasických uživatelských rozhraní, je stále ještě předmětem výzkumu. I náš pražský tým hledá nové cesty, jak účelně využít komunikaci hlasem. Již nějakou dobu na tom spolupracujeme s českými vysokými školami i zahraničními pracovišti. Jsme otevřeni novým nápadům a pilotním projektům a rádi takovou spolupráci rozšíříme.



 
Komentáře naleznete na konci poslední kapitoly.
170 čtenářů navrhlo autorovi prémii: 85Kč Prémie tohoto článku jsou již uzavřené, děkujeme za váš zájem.
TOPlist
Tento web používá k poskytování služeb soubory cookie.