Databáze je pro umělou inteligenci zdrojem informací, ze kterých vychází. Tedy stejně jako má člověk svou paměť, zážitky a zkušenosti.
Forma těchto informací je různorodá. Může mít podobu textu, obrázků, audio nebo video záznamů. Z technického hlediska je můžeme dělit na strukturovaná nebo nestrukturovaná data. Tedy zda ty knížky do regálu uspořádám například oborově nebo je tam jen tak nahážu a pak mi vyhledávání bude trvat déle.
Stejně tak mohu každý kousek informace anotovat, štítkovat nebo jinak předem připravit pro rychlý a efektivní přístup.
Datové sady rozlišuji také podle toho, k čemu jsou používány. Tedy data sety, na kterých se algoritmus učí, testuje a validuje.
Nejdříve potřebujeme sadu dat, na kterých se AI algoritmus učí. Stejně jako žák ve škole se zde daný systém snaží pochopit a zapamatovat, že například takto vypadá pes. Což není vůbec jednoduché. Bernardýn vypadá dost odlišně ve srovnání se pražským ratlíkem. A co vlk? Je to pes nebo něco jiného? Proč je lvice kočka, když má velice podobné rysy jako pes?
To, jak dobře jsem provedl svou práci zjistím pomocí validační sady dat, která nesmí být stejná jako ta, na kterých se daný AI model učil. Ve škole by to mohla být volná rozprava po probrané teorii, kdy učitel/lektor prochází dané téma z jiných úhlů pohledu a dává žákům další náhledy a případně koriguje jejich míru porozumění dané problematice.
A na závěr zkouška ohněm - testovací sada, na které zjišťujeme, jaké úspěšnosti výsledný model dosahuje v reálném světě. Tedy závěrečný test na známky, kdy se ukáže nejen kvalita studenta (modelu AI), ale také učitele (programátora). Propadne a bude opakovat ročník? Nebo jej pustíme do světa s diplomem?
To vše má zásadní vliv na rychlost a hlavně kvalitu výstupu AI. Všimněme si, že člověk se neučí jinak - jsou mu předkládány pojmenované vzory a tvrdí se mu, že tady to správně nebo špatně, takto vypadá strom ...
Například naučit (nejen) malé dítě označovat (rozpoznávat) zelenou barvu jako červenou je bez problému proveditelné. Přesně takové chyby nastávají při učení modelů umělé inteligence.
A co teprve, když AI ve své databázi narazí na protichůdné informace. S těmi je dospělý člověk konfrontován na denní bázi. Současné modely AI s přístupe na internet se dostávají do identických situací.
Zamysleme se volně:
Jakou sadu dat by AI dostala k dispozici, kdyby to bylo pouze na vládě USA nebo naopak Číny, Severní Korea apod?
Jak moc se můžeme spolehnout na modely AI, které jsou založeny na vědeckých studiích, když pravdivost mnohých byla časem zpochybněna nebo zcela popřena, protože autoři vědomě falšovali výsledky?
Přesně tak jsou modely AI náchylné k tomu, podávat (ne)pravdivé informace. Využívejme úžasné možnosti AI, buďme ale skeptičtí a nevěřme všemu.