Tokena adimen artifizialeko ereduek prozesatzen duten datu-unitaterik txikiena da. Izan daiteke hitz bat, letra soil bat edo baita puntuazio-marka bat ere.

Zer da "tokenizazioa?

Tokena AAko sistemek eduki bat analizatu eta prozesatzeko balia dezaketen zatirik txikiena da. Token horiekin lan egiten du ereduak testua ulertu eta sortzeko, hizkuntzak itzultzeko, edukia sortzeko eta galderei erantzuteko. Informazioa token bihurtzeko prozesuari "tokenizazio” esaten zaio.

"Tokenizazio” horretarako, arau espezifiko batzuen arabera banatzen da testua. ChatGPT-ren kasuan, adibidez, sistemak pareak kodetzeko metodo bat erabiltzen du, hitzak zati sarrietan zatitzen dituena. Zati bakoitza token bat da, eta token bakoitzak identifikazio-zenbaki berezi bat jasotzen du, ereduak barruan prozesatzen duena.

Token guztien multzoak eta haien zenbakizko korrespondentziak ereduaren hiztegia osatzen dute.

Token-motak

  • Hitz-tokena. Estandarrena eta aplikatzeko errazena da: hitz bakoitza token bat da. Alabaina, ez da zehatzena hitz konplexu, polisemiko edo konposatuetarako.
  • Karaktere-tokena. Karaktere indibidual bakoitza (letra, zenbaki zein sinbolo) token bat da. Hiztegi zabalagoak prozesatzeko gai da, nahiz ereduek prozesatu beharreko sekuentziak luzeagoak diren eta konplikatu egiten diren.
  • Azpihitz-tokena. Zati komunen edo sustraien arabera zatitzen ditu hitzak. Ondo moldatzen da hitz bitxi edo berriekin, baina inplementatzea konplexuagoa da.
  • Byte-tokena. Byte (edo informazio-unitate bitar) bakoitza token bat da. Eredu ohikoenetako batzuek erabiltzen dute, GPT-4-k adibidez, oso gaitasun egokiak eskaintzen baititu multzo osorako, nahiz ez den onena espazio eta denborei dagokienez.
  • Token semantikoa edo sinbolikoa. Oso eredu aurreratuek erabiltzen dute, eta esanahi edo funtzio sintaktikoan oinarritzen da. Azterketa semantiko sakona eta AAren eredu sinbolikoak behar ditu, baina badirudi etorkizunean nagusi izan daitekeela.

Zergatik dira garrantzitsuak tokenak adimen artifizialean?

Tokenei esker, AAk modu eraginkorrean prozesatzen du giza hizkuntza. Hala, ulertu egin dezake hizkuntza, eta galderei erantzun edo edukia sortu.

AA sortzailean, eredu batek maneia dezakeen token-kopuruak definitzen du haren ahalmena eta errendimendua.

LLM ereduek (Hizkuntza Eredu Handiak) token-kopuruaren muga bat dute eskaera bakoitzeko; hau da, galdera eta erantzuna konbinatuz, ezin dute kopuru hori gainditu.

Zenbat eta eraginkorragoa tokenizazioa, orduan eta hobeto aprobetxatuko dira testuingurua eta ereduaren ahalmena, eta, hala, ereduak hobeto ulertuko du hizkuntza, erantzun egokiagoak emango ditu edo kalitate hobeko eta eskaerari hobeto erantzuten dioten testua/irudiak sortuko ditu.