Ang gigantic na GPT-3 ng OpenAI ay nagpapahiwatig sa mga limitasyon ng mga modelo ng wika para sa AI

Halos isang taon na ang nakalilipas, OpenAI, isang kompanya ng artificial intelligence na batay sa San Francisco, ay nagulat ang mundo sa pamamagitan ng pagpapakita ng malalim na pag-unlad sa kakayahan ng mga kompyuter na bumuo ng mga pangungusap sa natural na wika, pati na rin ang pagresolba ng mga tanong tulad ng pagkumpleto ng isang pangungusap at pagbuo ng mahahabang talata ng teksto na kinikilalang tila tao.

Ang pinakabagong gawang ito ng koponan ay nagpapakita kung paano lumalim ang pag-iisip ng OpenAI sa ilang aspeto. Ang GPT-3, na tinawag na pinakabagong paglikha, ay lumitaw noong nakaraang linggo, na may mga karagdagang tampok at kagamitan, na ginawa ng ilang mga dating may-akda, kabilang sina Alec Radford at Ilya Sutskever, kasama ang ilang karagdagang kasamahan, kasama na ang mga siyentista mula sa Johns Hopkins University.

Ito ay isang tunay na malaking modelo ng wika, gaya ng tinatawag, na kinakain ang dalawang antas ng dami ng teksto kumpara sa nauna nito.

Subalit sa loob ng malaking palabas ng "mas malaki, mas maganda," tila ang koponan ng OpenAI ay papalapit sa ilang mas malalim na katotohanan, kahawig ng paraan na ginawa ni Dr. David Bowman sa pagtahak sa mga limitasyon ng alam sa dulo ng pelikulang 2001.

Nakabaon sa huling bahagi ng 72-pahinang papel, Ang Mga Modelo ng Wika ay Mga Learner sa Ilan Na Pagkakataon, nag-post ang nakaraang linggo sa arXiv pre-print server, ay isang kapansin-pansing pagkilala.

"Ang isang mas saligang limitasyon ng pangkalahatang pamamaraan na inilarawan sa papel na ito - ang pagsusulong ng anumang modelo na tulad ng LM, maging ito ay autoregressive o bidirectional - ay maaaring sa huli ay makaranas (o maaaring kasalukuyang naranasan na) ng mga limitasyon ng layunin ng pretraining," sabi ng mga awtor.

Ang sinasabi ng mga may-akda ay na ang pagbuo ng isang neural network na nagpapakahulugan lamang ng mga posibilidad ng susunod na salita sa anumang pangungusap o parirala ay maaaring may limitasyon nito. Ang pagpapalakas nito at paglalagay ng mas maraming teksto ay hindi basta-basta magdudulot ng mas mahusay na mga resulta. Ito ay isang mahalagang pag-amin sa loob ng isang papel na karamihan ang pagdiriwang sa tagumpay ng pagdagdag ng higit pang kapangyarihan sa pag-compute sa isang suliranin.

Upang maunawaan kung bakit napakahalaga ng konklusyon ng mga may-akda, isaalang-alang kung paano tayo nagkaroon ng ganitong sitwasyon. Ang kasaysayan ng trabaho ng OpenAI sa wika ay bahagi ng kasaysayan ng patuloy na pag-unlad ng isang uri ng pamamaraan, na may pagtaas ng tagumpay kapag ang teknolohiya ay ginawang mas malaki at mas malaki at mas malaki.

Ang orihinal na GPT, at GPT-2, ay parehong mga adaptasyon ng tinatawag na Transformer, isang imbento na pasinaya sa Google noong 2017. Ginagamit ng Transformer ang isang function na tinatawag na "attention" upang kalkulahin ang probabilidad na magkakaroon ng isang salita batay sa mga nakapaligid na salita. Nagdulot ng kontrobersiya ang OpenAI isang taon ang nakararaan nang sabihin nito na hindi nito ipapalabas ang source code ng pinakamalaking bersyon ng GPT-2, dahil, aniya, maaaring magamit ito sa maling paraan at mapang-abuso upang malinlang ang mga tao sa pamamagitan ng mga bagay tulad ng pekeng balita.

Ang bagong papel ay nagdadala ng GPT sa mas mataas na antas sa pamamagitan ng paglaki nito. Ang pinakamalaking bersyon ng GPT-2, ang hindi ipinoste sa anyong pinagmulan, ay may 1.5 bilyong mga parameter. Ang GPT-3 ay may 175 bilyong mga parameter. Ang parameter ay isang pagkakalkula sa isang neural network na nagpapalaganap ng malaking o mababang timbang sa ilang aspeto ng data, upang bigyan ng higit o mas mababang pagkakahalaga ang aspektong iyon sa pangkalahatang pagkalkula ng data. Ito ang mga timbang na nagbibigay ng hugis sa data, at nagbibigay ng natutuhan na pananaw ng neural network sa data.

Ang pagtaas ng mga timbang sa paglipas ng panahon ay nagdulot ng kamangha-manghang mga resulta ng benchmark test ng pamilya ng mga programa ng GPT, at ng iba pang malalaking Transformer derivatives, tulad ng BERT ng Google, mga resulta na patuloy na napakaimpresibo.

Huwag na lang pansinin na marami nang mga tao ang nagtukoy na wala talagang sinasadya ang mga modelo ng wika na ito na maunawaan ang wika sa anumang makabuluhang paraan. Sila ay magaling sa mga pagsusulit, at iyon ay may kabuluhan.

Ang pinakabagong bersyon ay nagpapakita muli ng kwalitatibong progreso. Tulad ng GPT-2 at iba pang mga programa na batay sa Transformer, ang GPT-3 ay sinanay gamit ang data set ng Common Crawl, isang corpus na halos isang trilyong salita ng mga teksto na iniskrape mula sa Web. "Ang laki ng dataset at sukat ng modelo ay mga dalawang antas mas malaki kaysa sa mga ginamit para sa GPT-2," ang mga may-akda ay sumulat.

Ang GPT-3 na may 175 bilyong mga parametro ay kayang makamit ang tinatawag ng mga may-akda na "meta-learning." Ito ay may ibig sabihin na ang neural net ng GPT ay hindi kinakailangang i-retrain upang magawa ang isang gawain tulad ng pagkumpleto ng pangungusap. Sa pamamagitan ng pagbibigay ng halimbawa ng isang gawain, tulad ng isang hindi kompleto na pangungusap, at pagkatapos ang kumpletong pangungusap, ang GPT-3 ay magpapatuloy sa pagkukumpleto ng anumang hindi kompleto na pangungusap na ibinigay sa ito.

Ang GPT-3 ay kayang matuto kung paano gawin ang isang gawain gamit ang isang solong prompt, mas mahusay, sa ilang mga kaso, kaysa sa mga bersyon ng Transformer na napaganda ang paggamit lamang para gumawa ng partikular na gawain na iyon. Kaya nga, ang GPT-3 ay ang tagumpay ng isang malawak na pagsasaliksik. Ibigay lamang ang napakaraming teksto hanggang sa ang mga timbang nito ay maging ideal, at magagawa nito ng maayos ang iba't ibang partikular na mga gawain nang walang ibang pagpapaunlad.

Iyan ang kung saan ang kwento ay nagtatapos sa isang kapansin-pansin na paglutas sa bagong papel. Pagkatapos ang paglalahad ng mga nakamamanghang resulta ng GPT-3 sa mga gawain sa wika na kinabibilangan ng pagkumpleto ng mga pangungusap hanggang sa pagtatala ng mga maikling salita't isa't kahulugan ng mga pangungusap hanggang sa pagsasalin sa iba't ibang wika, tinitingnan ng mga awtor ang mga kahinaan.

"Sa kabila ng malalakas na pagpapabuti sa bilang at kalidad ng GPT-3, lalo na kung ikukumpara ito sa direktang naunang bersyon nito na GPT-2, mayroon pa rin itong kahalintulad na mga kahinaan."

Ilan sa mga kahinaan na ito ay hindi kayang makamit ang malaking katumpakan sa tinatawag na Adversarial NLI. Ang NLI, o natural language inference, ay isang pagsusulit kung saan kinakailangan ng programa na matukoy ang relasyon sa pagitan ng dalawang pangungusap. Ang mga mananaliksik mula sa Facebook at University of North Carolina ay nagpakilala ng isang adversarial na bersyon, kung saan ang mga tao ang gumagawa ng mga magkakasamang pangungusap na mahirap malutas ng computer.

Ang GPT-3 ay hindi gaanong magaling sa mga bagay na tulad ng Adversarial NLI, sabi ng mga awtor. Mas masama pa, kahit na pinataas nila ang kapangyarihan ng kanilang sistema sa 175 bilyong bigat, hindi gaanong tiyak ang mga awtor kung bakit sila hindi gaanong magaling sa ilang mga gawain.

Ito ay kapag sila ay dumating sa konklusyon, na binanggit sa itaas, na marahil ang simpleng pagpapakain lamang ng isang malaking corpus ng teksto sa isang napakalaking makina ay hindi ang pangwakas na sagot.

Kahit mas nakakagulat ay ang susunod na obserbasyon. Ayon sa mga nagsusulat, ang buong kasanayan ng pagtatangka upang hulaan kung ano ang mangyayari sa wika ay maaaring mali ang approach. Maaaring sila ay nagtutungo sa maling lugar.

"Sa mga layunin ng self-supervised, ang pagtatakda ng gawain ay umaasa sa pagpapatupad ng nais na gawain sa isang suliranin sa paghuhula," sabi nila, "samantalang sa katapusan, ang mga kapaki-pakinabang na mga sistema ng wika (halimbawa ang mga virtual na tagapagtanggol) ay maaring mas makabubuti kung ito ay iniisip na paggawa ng mga gawaing may layunin kaysa sa paghuhula lamang."

Ang mga awtor ay iniwan ito para sa ibang pagkakataon upang tiyakin kung paano nila haharapin ang kapansin-pansin at potensyal na bagong direksyon na ito.

Kahit na nauunawaan na ang pagiging malaki ay hindi palaging ang pinakamahusay, malamang na ipagpatuloy pa rin ng magagaling na resulta ng GPT-3 sa maraming gawain ang pagnanais para sa higit pang malalaki at malalaking neural networks. Sa 175 bilyong mga parameter, ang GPT-3 ang hari ng malalaking neural networks, sa ngayon. Ang isang presentasyon noong Abril ng kompanyang AI chip na Tenstorrent ay naglalarawan ng mga darating na neural networks na may higit sa isang trilyong mga parameter.

Para sa isang malaking bahagi ng komunidad ng machine learning, ang pagmodelong ng wika na mas malaki at mas malaki ay mananatiling nasa estado ng sining.

Ang napakalaking GPT-3 ng OpenAI ay nagpapahiwatig sa mga limitasyon ng mga modelo ng wika para sa AI.

Kaugnay na mga Artikulo