Področje strojnega učenja zajema različne metodologije in paradigme, od katerih je vsaka primerna za različne vrste podatkov in problemov. Med temi paradigmami sta nadzorovano in nenadzorovano učenje dve najbolj temeljni.
Nadzorovano učenje vključuje usposabljanje modela na označenem naboru podatkov, kjer so vhodni podatki združeni s pravilnim izhodom. Model se nauči preslikati vnose v izhode tako, da zmanjša napako med svojimi napovedmi in dejanskimi izhodi. Na drugi strani se nenadzorovano učenje ukvarja z neoznačenimi podatki, kjer je cilj sklepati o naravni strukturi, ki je prisotna v nizu podatkovnih točk.
Obstaja vrsta učenja, ki združuje nadzorovane in nenadzorovane učne tehnike, ki se pogosto imenujejo delno nadzorovano učenje. Ta pristop med procesom usposabljanja izkorišča tako označene kot neoznačene podatke. Utemeljitev delno nadzorovanega učenja je, da lahko neoznačeni podatki, če se uporabljajo v povezavi z majhno količino označenih podatkov, povzročijo znatno izboljšanje natančnosti učenja. To je še posebej uporabno v scenarijih, kjer je označenih podatkov malo ali jih je drago pridobiti, neoznačenih podatkov pa je veliko in jih je enostavno zbrati.
Delno nadzorovano učenje temelji na predpostavki, da lahko osnovna struktura neoznačenih podatkov zagotovi dragocene informacije, ki dopolnjujejo označene podatke. Ta predpostavka ima lahko več oblik, kot so predpostavka o grozdu, predpostavka o razdelilniku ali predpostavka o nizki gostoti ločevanja. Predpostavka gruče predvideva, da imajo podatkovne točke v isti gruči verjetno enako oznako. Predpostavka o mnogoterosti nakazuje, da visokodimenzionalni podatki ležijo na mnogoterosti veliko nižje dimenzionalnosti, naloga pa je, da se tega mnogoterja naučimo. Predpostavka o nizki gostoti ločevanja temelji na ideji, da mora biti meja odločitve v območju nizke gostote podatkov.
Ena izmed pogostih tehnik, ki se uporablja pri polnadzorovanem učenju, je samousposabljanje. Pri samousposabljanju se model najprej uri na označenih podatkih. Nato uporabi lastne napovedi za neoznačene podatke kot psevdooznake. Model se dodatno usposablja na tem razširjenem naboru podatkov in iterativno izpopolnjuje svoje napovedi. Druga tehnika je skupno usposabljanje, kjer se dva ali več modelov hkrati usposablja za različne poglede na podatke. Vsak model je odgovoren za označevanje dela neoznačenih podatkov, ki se nato uporabijo za usposabljanje drugih modelov. Ta metoda izkorišča redundanco v več pogledih podatkov za izboljšanje učinkovitosti učenja.
Metode, ki temeljijo na grafih, prevladujejo tudi pri delno nadzorovanem učenju. Te metode sestavijo graf, kjer vozlišča predstavljajo podatkovne točke, robovi pa podobnosti med njimi. Učna naloga se nato preoblikuje kot optimizacijski problem na osnovi grafa, kjer je cilj razširiti oznake od označenih vozlišč do neoznačenih, pri tem pa ohraniti strukturo grafa. Te tehnike so še posebej učinkovite na področjih, kjer podatki naravno tvorijo omrežje, kot so socialna omrežja ali biološka omrežja.
Drug pristop k združevanju nadzorovanega in nenadzorovanega učenja je učenje z več nalogami. Pri učenju z več nalogami se hkrati rešuje več učnih nalog, pri čemer se izkoriščajo skupne značilnosti in razlike med nalogami. To je mogoče razumeti kot obliko induktivnega prenosa, kjer znanje, pridobljeno pri eni nalogi, pomaga izboljšati učenje druge. Učenje z več nalogami je lahko še posebej koristno, če obstaja skupna predstavitev ali prostor med nalogami, kar omogoča prenos informacij.
Praktični primer delno nadzorovanega učenja je na področju obdelave naravnega jezika (NLP). Razmislite o nalogi analize razpoloženja, kjer je cilj razvrstiti dano besedilo kot pozitivno ali negativno. Označeni podatki, kot so ocene z oznakami razpoloženja, so lahko omejeni. Vendar pa je na voljo ogromno neoznačenega besedila. Pristop delno nadzorovanega učenja bi lahko vključeval usposabljanje klasifikatorja razpoloženja na označenih podatkih in njegovo uporabo za napovedovanje razpoloženja neoznačenih podatkov. Te napovedi se lahko nato uporabijo kot dodatni podatki za usposabljanje, kar izboljša učinkovitost klasifikatorja.
Drug primer je mogoče najti v klasifikaciji slik. V mnogih primerih je pridobivanje označenih slik delovno intenzivno in drago, medtem ko je neoznačenih slik veliko. Delno nadzorovan pristop lahko vključuje uporabo majhnega niza označenih slik za usposabljanje začetnega modela. Ta model bi nato lahko uporabili za neoznačene slike za ustvarjanje psevdooznak, ki se nato uporabijo za ponovno usposabljanje modela.
Integracija nadzorovanega in nenadzorovanega učenja prek delno nadzorovanega učenja in sorodnih metodologij predstavlja močan pristop v strojnem učenju. Z izkoriščanjem prednosti obeh paradigem je mogoče doseči pomembne izboljšave v zmogljivosti modela, zlasti na področjih, kjer so označeni podatki omejeni, neoznačenih pa je veliko. Ta pristop ne povečuje samo zmožnosti modelov za posploševanje iz omejenih podatkov, temveč zagotavlja tudi bolj robusten okvir za razumevanje osnovne strukture kompleksnih podatkovnih nizov.
Druga nedavna vprašanja in odgovori v zvezi EITC/AI/GCML Google Cloud Machine Learning:
- Kakšne so metrike ocenjevanja uspešnosti modela?
- Kaj je linearna regresija?
- Ali je mogoče združiti različne modele ML in zgraditi glavni AI?
- Kateri so nekateri najpogostejši algoritmi, ki se uporabljajo pri strojnem učenju?
- Kako ustvariti različico modela?
- Kako uporabiti 7 korakov ML v primeru primera?
- Kako lahko strojno učenje uporabimo za podatke o gradbenih dovoljenjih?
- Zakaj so bile tabele AutoML ukinjene in kaj jih je nasledilo?
- Kakšna je naloga interpretacije logotipov, ki jih narišejo igralci v kontekstu umetne inteligence?
- Ko se v gradivu govori o "izbiri pravega algoritma", ali to pomeni, da v bistvu vsi možni algoritmi že obstajajo? Kako vemo, da je algoritem "pravi" za določen problem?
Oglejte si več vprašanj in odgovorov v EITC/AI/GCML Google Cloud Machine Learning