Umelá inteligencia

Zobraziť detaily

Prírodné vedy » Informatika

Vytlačiť Uložiť

Autor: verca123
Typ práce: Referát

Dátum: 15.10.2025
Jazyk: Slovenčina

Rozsah: 4 255 slov
Počet zobrazení: 6 152

Tlačení: 444
Uložení: 500

Umelá inteligencia

1. Úvod

Ľudia sa už oddávna snažili vymyslieť stroj, s ktorým by sa mohli porozprávať, ktorý by bol schopný reagovať na ich podnety, čím by sa stal nielen ich pomocníkom ale aj tak trochu ich priateľom. Dlhé roky sa takéto predstavy zdali byť úplne rozprávkové, neuskutočniteľné. Dnes na prelome 20 a 21 storočia začínajú byť takéto predstavy čoraz bližšie k realite. Vzniká nová, veľmi negatívna predstava, v rámci ktorej sa človek začína obávať reakcií stroja, ktorý môže v rámci poruchy spustiť svetovú vojnu, zastaviť respiračný prístroj, vyradiť hromadu elektrární…

1.1 História

Návrh a konštrukcie systémov pre komunikáciu medzi človekom a strojom je problém, ktorý zaujíma a vzrušuje človeka už niekoľko storočí. Už v druhej polovici 18. storočia boli popísané von Kempelenom a nezávisle Kratzensteinom experimenty s mechanickým syntetizérom ľudského hlasu. Od tej doby už uplynulo mnoho rokov, počas ktorých bolo navrhnutých a experimentálne overených mnoho prístupov a metód týkajúcich sa analýzy, syntézy a rozpoznávania akustického rečového signálu.

Z tých, ktoré významne ovplyvnili túto oblasť, napr. vynález spektrografu v roku 1946, ktorý významne povzbudil práce na analýze a syntéze reči, pretože umožnil praktické a veľmi užitočné zobrazenie akustického výstupu z hlasového traktu (visible speech).

Na rozvoj analýzy a syntézy reči mali značný vplyv aj práce Fanta a Flanagana, ktoré priniesli nové poznatky z oblasti teórie rečovej produkcie a ovplyvnili zavedenie takých metód analýzy rečového signálu, akými sú lineárne prediktívne kódovania alebo kepstrálna analýza. Hlavný a najdôležitejší pokrok však prišiel nástupom číslicových počítačov, kedy sa rozvinula a v praxi uplatnila celá veľká skupina metód založená na digitalizácii a číslicovom spracovaní akustického rečového signálu.

Pritom mnohé metódy sa rozvíjali a v praxi uplatňovali bezprostredne v závislosti na aktuálnom pokroku dosiahnutom pri rozvoji výpočtových systémov. Typickým príkladom takéhoto postupného uplatňovania metód spracovania rečového signálu môže byť Fourierova analýza[2], ktorá je známa vo svojej analógovej verzii už od prvej polovici 18. storočia ako veľmi významný prostriedok spracovania signálov.

Diskrétna alternatíva Fourierovej transformácie sa však stala aktuálna až s nástupom počítačov v päťdesiatych a šesťdesiatych rokoch 20. storočia, ktorej širšie praktické uplatnenie v systémoch pracujúcich v reálnom čase možno však sledovať až s nástupom signálových procesorov, čo nie je až tak dávno.

Typickým príkladom výskumu z tohto obdobia bol v roku 1951 konštrukcia prvého nie veľmi úspešného neuropočítača Snark, pri zrode ktorého stál Marvin Minsky. V roku 1957 Frank Rosenblatt vynašiel tzv. perceptron, ktorý je zovšeobecnením McCullochova a Pittsovho modelu neurónu pre reálny číselný obor parametrov.

Pre tento model navrhol učiaci algoritmus, o ktorom matematicky dokázal, že pre dané tréningové dáta nájde po konečnom počte krokov zodpovedajúci váhový vektor parametrov (pokiaľ existuje) nezávisle na jeho počiatočnom nastavení. Tento výsledok vzbudil veľké nadšenie. Rosenblatt taktiež napísal jednu z prvých kníh o neurovýpočtoch Principles of Neurodynamics.

Na základe tohoto výskumu Rosenblatt spolu s Charlesom Wightmanom a ďalšími zostrojili počas rokov 1957 a 1958 prvý úspešný neuropočítač, ktorý pomenovali Mark I Perceptron. Pretože pôvodným odborným záujmom Rosenblatta bolo rozpoznávanie obrazcov, Mark I Perceptron bol navrhnutý pre rozpoznávanie znakov. Znak bol premietaný na svetelnú tabuľu, z ktorej bol snímaný poľom 20 x 20 fotovodičov.

Intenzita 400 obrazových bodov bola vstupom do neurónovej siete perceptronov, úlohou ktorých bolo klasifikovať, o aký znak sa jedná (napr. „A“, „B“ apod.). Mark I Perceptron mal 512 adaptovateľných váhových parametrov, ktoré boli realizované poľom 8 x 8 x 8 potenciometrov. Hodnota odporu u každého potenciometra, ktorá práve zodpovedala príslušnej váhe, bola nastavovaná automaticky samostatným motorom. Ten bol riadený analógovým obvodom, ktorý implementoval perceptronový učiaci algoritmus.

Jednotlivé perceptrony bolo možné spojiť so vstupmi ľubovoľným spôsobom. Typicky bolo použité náhodné zapojenie, aby sa ilustrovala schopnosť perceptronu učiť sa požadované vzory bez presného zapojenia káblov v protiklade ku klasickým programovateľným počítačom. Vďaka úspešnej prezentácii uvedeného neuropočítača sa neurovýpočty, ktoré boli alternatívou ku klasickým výpočtom realizovaným na von neumannovskej architektúre počítača, stali novým predmetom výskumu. Frank Rosenblatt je preto dodnes niektorým odborníkmi považovaný za zakladateľa tohoto nového oboru.

Krátko po objave perceptronu Bernard Widrow so svojimi študentmi vyvinul ďalší typ neurónového výpočtového prvku, ktorý nazval ADALINE (ADAptive LINear Element[1]). Tento model bol vybavený novým výkonným učiacim pravidlom, ktorý sa využíva až dodnes. Widrow so svojimi študentmi demonštroval funkčnosť ADALINE[1] na mnohých jednoduchých typových príkladoch. Widrow tiež založil prvú firmu (Memistor Corporation) orientovanú na hardware neuropočítačov, ktorá v prvej polovici 60. rokov vyrábala a predávala neuropočítače a ich komponenty.

Na prelome 50. a 60. rokov dochádza k úspešnému rozvoju neurovýpočtov v oblasti návrhu nových modelov neurónových sietí a ich implementácií. Napríklad Karl Steinbuch vyvinul model binárnej asociatívnej siete[1] alebo Roger Barron a Lewey Gilstrap založili v roku 1960 prvú firmu zameranú na aplikáciu neurovýpočtov. Výsledky z uvedeného obdobia sú zhrnuté v knihe Nilsa Nilssona Learning Machines z roku 1965.

Napriek dosiahnutým úspechom v tomto období sa obor neurónových sietí potýkal s dvoma problémami. Po prvé, väčšina bádateľov pristupovala k neurónovým sieťam z experimentálneho hľadiska ( pripomínajúceho tak trochu alchýmiu) a zanedbávala analytický výskum neurónových modelov. Po druhé, nadšenie niektorých výskumných pracovníkov viedlo k veľkej publicite neopodstatnených vyhlásení (prehlásení) ako napríklad, že o niekoľko málo rokov bude vyvinutý umelý mozog.

Tieto skutočnosti diskreditovali neurónové siete v očiach odborníkov z iných oblastí a odradili vedcov a inžinierov, ktorí sa o neurovýpočty zaujímali. Naviac sa samotný obor neurónových sietí vyčerpal a ďalší pokrok v tejto oblasti by bol vyžadoval radikálne nové myšlienky a postupy. Najlepší odborníci oblasť neurónových sietí opúšťali a začali sa zaoberať príbuznými obormi umelej inteligencie.

Poslednou epizódou tohoto obdobia bola kampaň vedená Marvinem Minským a Seymourem Papertom, ktorí využili svoj vplyv, aby diskreditovali výskum neurónových sietí, nachádzajúci sa v kríze, v snahe previesť finančné zdroje z tejto oblasti na iný výskum v umelej inteligencii. V tej dobe koloval rukopis ich výskumnej správy, ktorá napomáhala tomuto zámeru. Uvedený rukopis bol potom v upravenej forme publikovaný v roku 1969 pod názvom Perceptrons.

V tejto knihe Minsky a Papert využili pre svoju argumentáciu známeho triviálneho faktu, že jeden perceptron nemôže počítať jednoduchú logickú funkciu, tzv. vylučovaciu disjunkciu (XOR)[1]. Tento problém síce možno vyriešiť vytvorením dvojvrstvovej siete s tromi neurónmi, ale pre viacvrstvový perceptron nebol v tej dobe známy učiaci algoritmus. Autori z toho nesprávne vyvodili, že taký algoritmus vzhľadom ku komplikovanosti funkcie, ktorou viacvrstvová sieť počíta, snáď ani nie je možný. Ich tvrdenie bolo všeobecne prebraté a považované za matematicky dokázané. Kampaň Minského a Paperta bola úspešná, výskum neurónových sietí už nebol ďalej dotovaný a neurovýpočty boli považované za neperspektívne.

Začiatkom 80. rokov sa bádatelia v oblasti neurovýpočtov osmelili a začali podávať vlastné grantové projekty zamerané na vývoj neuropočítačov a ich aplikáciu. Ďalšiu zásluhu na renesancii oboru neurónových sietí mal svetovo uznávaný fyzik John Hopfield, ktorý sa v tejto dobe začal zaoberať neurovýpočtami. Svoje výsledky publikoval v roku 1982 a 1984 v dvoch veľmi čítaných článkoch, kde ukázal súvislosť niektorých modelov neurónových sietí s fyzikálnymi modelmi magnetických materiálov.

Svojimi prednáškami, ktoré mal po celom svete, získal pre neurónové siete stovky kvalifikovaných vedcov, matematikov a technológov. V roku 1986 publikovali svoje výsledky bádatelia z tzv. „PDP skupiny“ (Parallel Distributed Processing Group) v zborníku editovanom Davidom Rumelhartom a Jamesom McClellandom.

Tu sa objavil článok Rumelharta, Geoffreyho Hintona a Ronalda Wiliamsa, ktorí v ňom popísali učiaci algoritmus spätného šírenia chyby (backpropagation)[1] pre viacvrstvovú neurónovú sieť a vyriešili tak problém, ktorý sa Minskému a Papertovi v 60. rokoch javil ako neprekonateľná prekážka pre využitie a ďalší rozvoj neurónových sietí.

1.2 Podnety z biológie

Pôvodným cieľom výskumu neurónových sietí bola snaha pochopiť a modelovať, akým spôsobom myslíme a ako funguje ľudský mozog. Neurofyziologické poznatky umožnili vytvoriť zjednodušené matematické modely, ktoré sa dajú využiť pre neurovýpočty pri riešení praktických úloh z umelej inteligencie. To znamená, že neurofyziológia slúži iba ako zdroj inšpirácie a navrhnuté modely neurónových sietí sú ďalej rozvíjané bez ohľadu na to, či modelujú ľudský mozog.

Preto je účelné sa zoznámiť so základnými poznatkami z neurofyziológie, ktoré nám pomôžu pochopiť pôvodnú motiváciu matematických modelov neurónových sietí. Súčasné poznanie mozgu je natoľko povrchné, že čokoľvek povieme, môže byť považované za pravdivé. Na druhej strane nám však nejde o vytvorenie presnej kópie mozgu, ale chceme iba napodobniť jeho základné funkcie.

Nervová sústava človeka ( všeobecne vš. Živých organizmov) sprostredkuje vzťahy medzi vonkajším prostredím a organizmom, i medzi jeho časťami. Týmto zaisťuje príslušnú reakciu na vonkajšie podnety i na vnútorné stavy organizmu. Tento proces prebieha šírením vzruchov z jednotlivých častí, tzv. receptorov, ktoré umožňujú prijímať mechanické, tepelné, chemické a svetelné podnety, smerom k iným nervovým bunkám, ktoré tieto signály spracujú a privádzajú k príslušným výkonným orgánom, tzv.

efektorom. Tieto vzruchy sa po projekčných dráhach dostávajú až do mozgovej kôry, ktorá je najvyšším riadiacim centrom nervového systému. Na povrchu mozgu môžeme rozlíšiť celkom šesť primárnych vzájomne prepojených projekčných oblastí odpovedajúcich približne zmyslom, v ktorých dochádza k paralelnému spracovaniu informácie. Komplexné spracovanie informácie, ktoré je základom pre vedomé riadenie činnosti efektorov, prebieha už sekvenčne v tzv. asociačných oblastiach.

Základným stavebným funkčným prvkom nervovej sústavy je nervová bunka – neurón. Iba mozgová kôra človeka obsahuje 13 až 15 miliárd neurónov a z nich každý môže byť spojený s 5000 inými neurónmi. Neuróny sú samostatné špecializované bunky určené k prenosu, spracovaniu, a uschovaniu informácií nutných pre realizáciu životných funkcií organizmu. Štruktúra neurónu je schematicky znázornená na obrázku 1.1.

Neurón je bunka, ktorá sa skladá s vlastného tela tzv. soma, vstupov tzv. dendridov a výstupu tzv. axónu. Dendridy sú krátke rozvetvené výbežky(v ojedinelom prípade je len jeden), vedú podráždenie do tela bunky, sú dostredivé. Spolu s inými bunkami vytvárajú spoje- synapsie. Axón je dlhý výbežok je vždy len jeden a vedie podráždenie z tela bunky, sú odstredivé. Jeho membrána je špecializovaná na vedenie vzruchov. Informácia sa odovzdáva v synapsiách prostredníctvom chemických látok mediátorov, ktoré sa vylučujú z nervových zakončení neuritov- synaptických uzlikov. Spojenia neurónov vytvárajú neurónovú sieť, ktorá je na obrázku 1.2.

2. Členenie umelej inteligencie

Pojem umelej inteligencie zahŕňa niekoľko úzko súvisiacich oblastí, ktoré síce tvoria jeden celok, ale sú odlišné, takže vyžadujú osobitnú špecifikáciu. Predstavme si kybernetické zariadenie, ktoré má tak úlohu vykonávať povinnosti pomocného personálu v nejakej nemocnici. Medzi takéto povinnosti môže patriť napr. rozvážanie obedov a zbieranie špinavého riadu. V niektorých špičkových nemocniciach v USA takéto kybernetické zariadenia skutočne existujú. Pre správnu funkciu takéhoto prístroja sú potrebné nasledovné súčasti:

· Centrálny učiaci sa systém – neurónová sieť

· Audioreceptor a jednotka rozpoznávania plynulej reči

· Jednotka syntézy jazyka a reprodukčná sústava

· Videoreceptor a jednotka rozpoznávania obrazu

· Mechanické ramená, náhony a jednotka riadenia v reálnom čase

Takýto kybernetický prístroj sa môže pohybovať na kolieskach, mechanickými rukami dokáže položiť alebo zobrať riad, pomocou kamery sa orientuje v priestore, mikrofón môže zachytávať varovné alebo riadiace akustické podnety. Pomocou reproduktoru môže upozorňovať, požadovať... Jeho centrálna jednotka je schopná učiť sa, prispôsobiť sa rôznym spôsobom rôznym pacientom... V ďalších častiach tejto kapitoly sa zameriame konkrétnejšie na jednotlivé oblasti tvoriace celok umelej inteligencie.

2.1 Učenie

Centrálna jednotka učenia spája do jedného celku všetky ostatné jednotky kybernetického systému. Je akýmsi mozgom elektromechanického „organizmu“. Takáto jednotka obsahuje niekoľko neurónových sietí, z ktorých niektoré sú zamerané na spracúvanie obrazu, iné na spracúvanie zvuku, ďalšie na vytváranie reči, prípadne na celkové rozhodovanie, ktoré sa týka špecifikovanej funkcie daného zariadenia. Takéto rozdelenie sa snaží modelovať jednotlivé centrá mozgu biologického organizmu. Bližšie sa o tejto problematike budeme zaoberať v kapitole 3.

2.2 Komunikačný jazyk

Komunikácia pomocou reči je dvojsmerná, preto môžeme takýto modul rozdeliť na dve časti:

· Počúvanie

· Rozprávanie

Aby mohlo elektronické zariadenie prijať hlasovú informáciu, musí obsahovať mikrofón, zosilňovač, modul pulznej kódovej modulácie (ďalej PCM), modul krátkodobého spracúvania signálu a modul samotného rozpoznávania informácie. Výstupom jednotky spracúvania hlasu sú inštrukcie zachytávané formou interného jazyka.

Elektronické rozprávanie – syntéza umelej reči musí obsahovať reproduktor, zosilňovač, dekodér PCM, databázu fragmentov reči alebo matematický model produkcie reči, modul prepisov jazyka a slovník výslovnosti. Na obrázku 2.1 je schematicky znázornená fyziologická produkcia reči. Vstupom jednotky produkcie reči je opäť interný komunikačný jazyk odovzdávaný v digitálnej podobe, ktorý svojou skladbou veľmi pripomína písaný text. O tejto problematike budeme bližšie hovoriť v kapitole 4.

2.3 Videnie a mechanika

Počítačové videnie popisuje jednosmernú komunikáciu – prijímanie informácie. Jednotka videnia musí obsahovať kameru, dátovú oblasť videopamäte, jednotku rozpoznávania a komunikačný protokol. Pomocou komunikačného protokolu sa zariadeniu odovzdávajú informácie o hranách v priestore, farbách, hĺbkach, vzdialenostiach a smeroch, ktoré sú nutné k tomu, aby sa elektromechanické zariadenie mohlo orientovať podobne ako človek. Bližšie o tejto problematike bude písané v kapitole 4.

Poslednou jednotkou, o ktorej budeme v tejto kapitole rozprávať, je jednotka riadenia krokových servomotorov. Aby mohlo dochádzať k správnym pohybom napr. mechanických rúk, musí sa daný servomotor pootočiť o potrebný uhol. Aby došlo k takto špecifikovanému pohybu, je potrebné vyslať krokovému servomotoru presne vypočítaný počet impulzov. Vzhľadom na nadmernú záťaž mechanického zariadenia je nutná spätná kontrola – či sa mechanická ruka v danom kĺbe skutočne o tento uhol zohla.

Priame riadenie krokového servomotora a jeho spätnej kontroly sa realizuje pomocou mikroprocesora a programovania v reálnom čase. Jeden mikroprocesor môže obsluhovať viacero mechanických kĺbov. Počet kĺbov na jednom mechanickom zariadení, ktoré otáčajú jeho ramená v odlišných rovinách, udávajú tzv. stupne voľnosti mechanického zariadenia.

3. Učiace sa systémy

Veľmi zaujímavým výpočtovým systémom, ktorý je schopný učiť sa a reagovať na nové podnety, je tzv. neurónová sieť. Od bežného Von-neumanovského systému sa líši tým, že je každá informácia distribuovaná do celého systému. Nie je teda uložená na jednom mieste pamäte! Preto ak sa menšia časť pamäte vymaže alebo prepíše, alebo ak prestane fungovať niekoľko neurónov, systém ako celok bude pracovať ďalej, ale s menšou presnosťou. Alkoholik, ktorý sa pravidelne trávi veľkými množstvami alkoholu, stráca nervové bunky – neuróny, pritom však neprestáva byť človekom.

3.1 Neurónové siete

Základnou jednotkou neurónovej siete je neurón. Neurón je výpočtová jednotka, ktorá dostáva podnet z viacerých vstupov, ktoré spracúva pomocou jednoduchej matematickej operácie. Neurón má schopnosť pamätať si otvorenie jednotlivých váh. Otváraním váhy rozumieme priepustnosť toho vstupu neurónu, ktorému daná váha prináleží. Naučením alebo adaptovaním daného neurónu rozumieme nastavenie všetkých jeho váh.

Vstupy neurónu sú modelované tzv. vstupným vektorom x1 až xN, ktorý je vážený tzv. váhovým vektorom v1 až vN. Rozmer týchto vektorov – prirodzené číslo n>=1 určuje počet vstupov daného neurónu. Hodnoty vstupov sú vážené a sčítané do jedinej reálnej hodnoty, ktorej hovoríme potenciál neurónu – epsilon. Každý neurón má svoju prahovú hodnotu tzv. prah neurónu. Ak potenciál nepresiahne prahovú hodnotu neurón nereaguje ak však presiahne hodnotu tak výstup na neuróne bude mať hodnotu funkcie, ktorá sa nazýva aktivačná funkcia a jej hodnota sa rovná výstupu.

Dosť často používanou a stabilnou aktivačnou funkciou je štandardná logistická sigmoida ďalej SLS. SLS rovná sa Z vyššie uvedeného zápisu je zrejmé, že D(SLS)=R a H=(0,1). Takto môžeme matematicky modelovať prácu mozgovej bunky. Vzájomným poprepájaním jednotlivých neurónov vzniká neurónová sieť. Niektoré neuróny neurónovej siete považujeme za vstupné neuróny siete, ich vstupy sú zároveň vstupmi siete. Ďalšie neuróny môžu byť považované za výstupné neuróny siete, ich výstupy sú výstupmi siete.

Neuróny, ktoré nie sú ani vstupné ani výstupné, nazývame vnútorné neuróny siete. Na obrázku 3.1 je znázornený príklad viacvrstvovej neurónovej siete. Neurónová sieť je plne popísaná svojou organizačnou, aktívnou a adaptívnnou dynamikou. Organizačná dynamika popisuje topológiu (štruktúru) siete. To znamená, že neurón s vyšším indexom sa pripája na neurón s nižším indexom. Ak to tak nie je vznikajú cykly a cyklické siete. Aktívna dynamika popisuje výpočet siete. Adaptívna dynamika popisuje nastavenie váhových vektorov, to sa nazýva učenie. Konkrétne nastavenie siete je konfigurácia siete. Čiže sieť má svoju topológiu, môže pracovať v aktívnom režime, alebo môže prebiehať učenie.

3.2 Aktívny režim siete

Neurónová sieť v aktívnom režime príjme na svoje vstupy hodnoty – napr. reálne čísla, pričom sa vyčíslia postupne všetky prahové hodnoty a aktivačné funkcie jednotlivých neurónov. Takto prebehne celkový výpočet – výstupy siete sa nastavia na hodnoty, napr. tiež reálne čísla. Neurónová sieť môže takto napr. kategorizovať, triediť, generovať k daným postupnostiam iné postupnosti...
Ak sa vstupné a výstupné hodnoty nahradia pre človeka prijateľnejšími údajmi ako napr. písmená v texte, intenzita hlasového prejavu v časových intervaloch, grafické body v obraze..., je prijateľnejšie uvedomiť si, čo daná neurónová sieť môže vykonať:

– Preklad textov

– Transkripcia textu na reč (viď 4.1)

– Rozpoznávanie obrazu

– Logické kategorizovanie – myslenie

3.3 Adaptácia – učenie

Učenie – adaptácie siete je proces, pri ktorom sa nastavujú váhové vektory všetkých neurónov danej siete. Procesom učenia sa neurónová sieť dostáva do stavu, v ktorom v aktívnom režime počíta výstupy s dostatočnou presnosťou. Takýto stav môžeme nazvať – systém je naučený.

Medzi prvý vynájdený algoritmus učenia patrí učenie pomocou spätného šírenia chyby tzv. back propagation. Pretože je tento algoritmus z hľadiska zložitosti totožný s optimalizačnou gradientnou metódou[1], je veľmi pomalý a niekedy nekonverguje k riešeniu. Učenie je potom potrebné resetovať a znovu opakovať...Medzi najnovšie učiace algoritmy patrí genetický algoritmus obr. 3.2, ktorý využíva populáciu jedincov, pričom uplatňuje tri genetické princípy:

– Náhodný výber

– Kríženie

– Mutácia

Genetický jedinec je reťazec alebo postupnosť všetkých váhových vektorov potrebných pre danú sieť. Populáciou jedincov rozumieme množinu genetických jedincov. Genetický algoritmus je náhodilostný princíp, v rámci ktorého sa náhodne vyberajú najlepšie zostavy váh, váhové reťazce sa lámu a opäť spájajú – krížia sa, pričom sa opäť vyhodnocujú. Do daného procesu sa vnáša miera chaosu – mutácia, ktorá spôsobuje vznik geneticky úplne nových jedincov, čím sa v konečnom dôsledku urýchľuje proces učenia[1,3].

4. Komunikácia stroja a človeka

Veľmi dôležitou zložkou umelej inteligencie je odovzdávanie informácií medzi strojom a človekom a strojové prijímanie reálnych informácií z okolia. Okrem bežných komunikačných prostriedkov- písanie na klávesnici, čítanie z displeja, používanie skenera, myši atď. sa v tejto oblasti otvárajú tri nové a veľmi zaujímavé komunikačné kanály. Ide o strojové počúvanie, rozpoznávanie plynulej reči, strojové rozprávanie- syntéza reči a strojové videnie – rozpoznávanie obrazového signálu.

4.1.Syntetické generovanie reči

Syntézu ľudskej reči je možné organizovať štyrmi rôznymi spôsobmi. Každý z nich má iné nároky na hardwér, na prípravu dát a realizáciu algoritmov[2,3]. Výsledná produkcia reči je v každom z týchto spôsobov menej alebo viac obmedzená a preto je potrebné najskôr si uvedomiť k čomu má výsledný strojový prejav slúžiť a až potom sa rozhodnúť pre konkrétny spôsob produkcie reči.

– Najjednoduchší spôsob syntézy je použitý v tzv. vyhlasovacích systémoch.

Takéto systémy majú databázu nahrávok viet, slov alebo častí slov. Pri produkcii reči tieto slová jednoducho kombinujú, čím vznikajú neprirodzené sekané oznamy. Môžeme sa s nimi stretnúť na železničných staniciach, pri použití telefónnych automatov.... Príprava databázy pre takýto systém je veľmi jednoduchá výsledná produkcia reči je však obmedzená na niekoľko desiatok až stovák viet.

– Druhým spôsobom je tzv. syntéza v časovej oblasti. Táto technológia už patrí oblasti prepisu textu na reč. Produkcia reči je teda nie obmedzená počtom vyjadriteľných viet výpočtový systém sa snaží pretlmočiť priamo zapísaný text. Výsledná syntetická reč je v konečnom dôsledku skladaná z fragmentov skutočnej ľudskej reči, ktoré sú uchované v databáze daného systému. Kvalita produkcie je daná výberom fragmentov – stavebných kameňov, z ktorých sa bude reč skladať.

Medzi takéto stavebné kamene môžu patriť napríklad: fonémy – čosi ako hlásky, difóny – stredy dvojíc hlások, trifóny- stredy trojíc hlások, fóny- najmenšie opakovateľné fragmenty reči, alofóny – reťazce fónov... Syntetizér si potom vyberá dané typy fragmentov alebo ich kombinácie, reťazí ich a na výstup uplatňuje aplikuje algoritmus prozódií – intonácií a dôrazu.

– Tretím spôsobom syntézy je tzv. syntéza v reálnej oblasti. Počítač nemá k dispozícii žiadnu databázu predlôh reči, obsahuje však päť matematických modelov , ktoré vyjadrujú spôsob generovania tónu v hlasivkách, rezonančnú sústavu hrdelnej dutiny, ústnej dutiny, nosnej dutiny a vyžarovania zvuku.(obr.4.1 fyziologický model hlasiviek) Každá z týchto sústav je modelovaná matematickou funkciou. Výsledná produkcia reči potom vzniká na základe konvolúcie piatich vyššie uvedených funkcií. Hlas vzniká pomocou budenia funkcií – pre znelé časti prejavu periodickým signálom, pre neznelé časti generovaním šumu s plochým spektrom. Druhou dôležitou zložkou je algoritmická zmena parametrov funkcií pomocou, ktorej sa v reči vytvárajú zmeny, závery, dôrazy...

– Štvrtým spôsobom syntézy je tzv. priama transkripcia textu na reč pomocou neurónovej siete.(obr. 4.2 systém netTALK) Vstupom neurónovej siete je n-rozmerný vektor, teda postupnosť skalárov 1 – n. Takáto postupnosť sa dá chápať ako znakový reťazec dĺžky n, pretože znak v digitálnom prevedení je vyjadriteľný celým číslom. Neurónová sieť v aktívnom režime vykonáva naraz gramatické preklady, vytváranie prozódií a prepis postupnosti znakov na postupnosť jednotiek hlasu. Jednotkami hlasu môžu byť vzorky PCM alebo Fourierove či LPC koeficienty[2](viď 4.2) Aby neurónová sieť rozprávala správne, je potrebné najskôr ju adaptovať – vykonať fázu učenia s predlohami textu a výsledného hlasového prejavu.

Posledný spôsob syntézy je zaujímavý tým, že syntetizér založený na báze neurónovej siete je schopný naučiť sa akýkoľvek jazyk bez potreby zásahu do daného systému. Pri dostatočnom počte neurónov je schopný naučiť sa viacero jazykov s tým, že sám rozpoznáva, akým jazykom má práve čítať.

4.2 Rozpoznávanie plynulej reči

Na úvod tejto podkapitoly budeme predpokladať, že máme hlas zachytený v digitálnej forme ako postupnosť vzoriek PCM. Aby bolo možné rozpoznať, o akú časť prejavu ide, je nutné zaviesť pojem krátkodobá charakteristika hlasu. Prakticky to znamená, že danú postupnosť PCM rozdelíme na malé intervaly, napr. 10ms, ktoré budeme neskôr algoritmicky vyhodnocovať. Medzi základné krátkodobé vyhodnotenia takýchto mikrosegmentov patrí napr.:

– Počet priechodov signálov nulou

– Krátkodobá energia

– Krátkodobá intenzita

– Určenie základného hlasivkového tónu

Pomocou takýchto krátkodobých hodnotení signálu môžeme zistiť, či sa nachádzame napríklad v znelej alebo neznelej časti prejavu, či sa práve testuje šum medzi vetami alebo hlasový prejav, ktorý treba vyhodnotiť...
Hlas zachytený pomocou vzoriek PCM zaberie pomerne veľa miesta v pamäti počítača (napr. súbory typu WAV). Aby hlas zaberal menej miesta a zároveň bolo ľahšie ho vyhodnocovať, je potrebné previesť postupnosť mikrosegmentov na postupnosť výrazne kratších vektorov.

Takýto prevod sa môže robiť napríklad pomocou Fourierovej transformácie alebo vytváraním tzv. koeficientov LPC. Dĺžka mikrosegmentu sa takto skráti približne päťnásobne, pričom namiesto postupnosti mikrosegmentov dostaneme postupnosť reálnych vektorov. Dané vektory vytvárajú vo vektorovom priestore „zhluky“, ktoré môžeme vyjadriť jediným vektorom nachádzajúcim sa v centre daného zhluku, tzv. centroidom.

Prevod reálnych vektorov na centroidy nazývame vektorovou kvantizáciou, na základe ktorej dostávame namiesto postupnosti mikrosegmentov postupnosť centroidov. Centroidov však už máme veľmi „málo“ – napr. 1024, a preto je možné vyjadriť ich indexom. Aby toto bolo algoritmicky možné, potrebujeme pamäť – tzv. kódovú knihu. Na základe vektorovej kvantizácie sa postupnosť centroidov prevedie na postupnosť celočíselných indexov. Prakticky to znamená, že rozsah súboru napr.

WAV sa skomprimuje približne 200-násobne. Takto spracovaný, skrátený zvuk je potom možné omnoho ľahšie algoritmicky vyhodnocovať – rozhodovať, ktorý index čo znamená. Aby sme z postupnosti indexov rozkódovali slovo, je potrebné vyhodnotiť tzv. miesta lokálnej stacionarity, teda miesta, kde znie daný hlas približne rovnako (napr. samohlásky...). Takéto technológie používajú systémy rozpoznávania celých viet, slov alebo jednotlivých písmen.

4.3 Počítačové videnie

Obraz, ktorý sa zosníma kamerou, prevedie na jednotlivé body a uloží do pamäte, je v tzv. základnom dátovom tvare. Počítač môže zistiť, aká je napr. farba bodu na danej súradnici, ale nedokáže vyhodnotiť, čo daný obraz ako celok znamená. Takáto grafická informácia môže byť text, fotka pekného dievčaťa alebo perspektíva záberu z prírody či mesta.

Aby počítač mohol pracovať s grafickou informáciou, je opäť dôležité rozložiť obrázok na malé čiastky „štvorčeky“ a previesť na takto získané dáta najrôznejšie grafické analýzy. Na základe týchto analýz dostaneme k dispozícii maticu vektorov, ktorá sa v konečnom tvare môže podobať na maticu indexov. Rozborom tejto informácie počítač vyhodnocuje hrany, krivky pomocou prepočtov uhlov určuje perspektívu a vzdialenosti...

Výsledná dekompozícia obrazu môže mať najrozličnejšiu dátovú štruktúru podľa toho, na čo sa daná analýza môže použiť – pohyb v priestore, OCR systémy (prevod zoskenovaných textov napr. do Wordu)... Dátová štruktúra rozpoznaného obrazu sa potom stáva obrazovým vstupom pre učiaci sa modul umelej inteligencie.

5. Záver

Technológie popísané vo vyššie uvedených kapitolách možno v človeku vzbudzujú pocit neskutočna alebo strachu z nových výpočtových možností strojov. Ako každá vec, ktorá bola vynájdená, je možné aj tieto technológie využiť na dobré veci ale aj na veci zlé. V závere tejto práce by sme chceli aspoň približne určiť rámce, čo takéto technológie znamenajú v praxi, pozitívnom i negatívnom zmysle a ako táto prax môže vyzerať napríklad o desať rokov.

5.1 Využitie nových technológií

Napriek tomu, že sa články o umelej inteligencii môžu zdať príliš abstraktné, takmer všetka špičková elektronika je v súčasnosti vyrábaná pomocou elektromechanických robotov s prvkami umelej inteligencie, ktoré sú pri práci na mikročipoch schopné učiť sa na vlastných chybách, prispôsobovať spájkovanie čipu tak, aby kontakty držali lepšie...

Inými slovami, za ktorýmkoľvek bežným počítačom, ktorý vlastníme v domácnosti, je skrytá práca učiacich sa elektromechanických zariadení – robotov, čo si možno v súčasnosti málokto uvedomuje. Mikročipy sa dnes integrujú do áut, lietadiel, lodí ale sú používané napríklad aj pri výrobe bežných hračiek pre deti. Človek je nahrádzaný robotmi nielen v oblasti mikrotechnológií ale napríklad aj v ťažkom priemysle – v hutníctve, v obrábaní kovov...

Tisícky ľudí vo svete v súčasnosti plnia databázy geografických systémov, databázy sémantických tezaurov... Ak si chce niekto kúpiť novodobú technickú hračku, môže napríklad zainvestovať do osobného navigátora, ktorý ho dokáže sprevádzať mestom, určovať trasu a s presnosťou na pár metrov vyhodnocovať chybný pohyb. Málokto si uvedomí kvantum dát nutných na takúto technológiu, počet družíc, ktoré sa tejto technológie aktívne zúčastňujú a z toho vyplývajúci počet letov do kozmu. Družice s prvkami umelej inteligencie reagujú na signály, ovplyvňujú priebeh svojho vysielania, čo sa z hľadiska človeka prejaví niekedy tak, že zaspí pri nudnom seriály.

Raketa s plochou dráhou letu typu Tomahowk, ktorej nosič stojí približne 1,2 milióna dolárov, obsahuje prvky umelej inteligencie, vyžaduje podobné dáta ako systém osobného navigátora a celú sériu družíc používaných pri lokalizácii trasy a cieľa. Takéto využitie tejto technológie môže prakticky znamenať obranu ale aj vraždenie.

5.2 Perspektívy

Človek v dejinách nie vždy zvládal technológie, ktoré dokázal svojím rozumom vymyslieť. Akoby v jeho bytí chýbalo niečo, čo by dalo jeho schopnostiam rámec ohľaduplnosti a obetavosti. Žijeme v dobe, keď si môžeme doma sadnúť za počítač, pripojiť sa na internet a pracovať s technickými prostriedkami počítačov na celom svete avšak nik z nás nevie čo bude o desať rokov?