Ang bagong teknolohiyang ito ay maaaring tanggalin ang GPT-4 at lahat ng katulad nito

Para sa lahat ng kasiyahan ukol sa chatbot AI na kilala bilang ChatGPT mula sa OpenAI, at ang susunod nitong teknolohiya, GPT-4, ang mga programs ay sa huli lamang ay mga aplikasyon ng software. At katulad ng ibang aplikasyon, mayroon silang mga limitasyon sa teknolohiya na maaaring magresulta sa hindi optimal na pagganap.

Sa isang papel na inilathala noong Marso, mga siyentipiko sa artificial intelligence (AI) sa Stanford University at sa MILA institute for AI sa Canada ay nagmungkahi ng isang teknolohiya na maaaring mas mabisang kaysa sa GPT-4 -- o kahit anong katulad nito -- sa paglamon ng malalaking halaga ng data at pagbabalangkas ito sa isang sagot.

Dagdag pa: Gusto ng mga dating empleyado ng Apple na palitan ang mga smartphone gamit ang gadget na ito

Tinatawag na Hyena, ang teknolohiyang ito ay kayang makamit ang kahalintulad na kahusayan sa mga benchmark test, tulad ng pagtugon sa mga tanong, habang gumagamit ng kahit isang bahagi lamang ng kapangyarihan ng pagpaproseso. Sa ilang mga sitwasyon, ang Hyena code ay kaya ring mag-handle ng malalaking dami ng teksto na nagpaparalisadong ang teknolohiyang GPT-style at bumibigo.

"Ang mga magagandang resulta namin sa sub-bilyon na bilang ng mga parameter ay nagpapahiwatig na ang atensyon ay hindi ang tanging kailangan natin," ang sabi ng mga may-akda. Ang pahayag na iyon ay tumutukoy sa pamagat ng isang mahalagang ulat sa AI noong 2017, 'Ang atensiyon ay ang tanging kailangan mo'. Sa pananaliksik na iyon, ipinakilala ng mga siyentipiko ng Google na sina Ashish Vaswani at ang kanilang mga kasamahan ang Transformer AI program ng Google sa mundo. Ang Transformer ay naging batayan para sa bawat isa sa mga kamakailang malalaking modelo ng wika.

Ngunit may malaking kahinaan ang Transformer. Ito ay gumagamit ng isang bagay na tinatawag na "atensyon," kung saan ang computer program ay kumuha ng impormasyon mula sa isang grupo ng mga simbolo, tulad ng mga salita, at inililipat ang impormasyong iyon sa isang bagong grupo ng mga simbolo, tulad ng sagot na nakikita mo mula sa ChatGPT, na siyang output.

Dagdag pa:Ano nga ba ang GPT-4? Narito ang lahat ng kailangan mong malaman

Ang operasyon na ito sa pansin -- ang pangunahing kagamitan ng lahat ng malalaking programa sa wika, kasama ang ChatGPT at GPT-4 -- ay may "kuwadratikong" kumplikasyon sa pag-compute (Wiki "time complexity" ng pag-compute). Ibig sabihin ng kumplikasyong ito, mas tumatagal ng oras ang ChatGPT sa pag-produce ng isang sagot habang dumadami nang kuwadrado ang dami ng impormasyong ibinibigay sa ito bilang input.

Sa isang punto, kung may masyadong maraming data - masyadong maraming salita sa prompt, o masyadong maraming pag-uusap sa loob ng ilang oras ng pakikipag-chat sa programa - nagiging mabigat ang pagbibigay ng sagot ng programa, o kailangan nitong bigyan ng mas maraming GPU chips upang tumakbo nang mas mabilis, na nagdudulot ng pagtaas ng mga pangangailangan sa pag-compute.

Sa bagong papel na 'Hyena Hierarchy: Patungo sa Mas Malalaking Convolutional Language Models', na ipinaskil sa arXiv pre-print server, si pangunahing may-akda Michael Poli ng Stanford at ang kanyang mga kasamahan ay nagmungkahi na palitan ang function ng atensyon ng Transformer ng isang bagay na sub-kwadratiko, na tinatawag na Hyena.

Dagdag pa: Ano nga ba ang Auto-GPT? Lahat ng kailangan malaman tungkol sa susunod na makapangyarihang tool ng AI

Ang mga awtor ay hindi nagpapaliwanag sa pangalan, ngunit maaaring mag-isip ang isa ng ilang mga dahilan para sa isang "Hyena" na programa. Ang mga hyena ay mga hayop na naninirahan sa Africa na kayang mangaso ng libu-libong metro. Sa isang paraan, ang isang napakapalakas na modelo ng wika ay maaaring tulad ng isang hyena, nangangaso ng libu-libong metro upang makahanap ng pagkain.

Ngunit tunay na nag-aalala ang mga may-akda sa "hierarchy" tulad ng ipinahihiwatig ng pamagat, at may mga pamilya ng mga hyena na may siksikang hierarchy kung saan ang mga miyembro ng isang lokal na hyena clan ay may iba't ibang antas ng ranggo na nagtatatag ng dominasyon. Sa isang parang na paraan, ang programang Hyena ay nag-aaplay ng isang hanay ng napakasimpleng mga operasyon, gaya ng iyong makikita, nang paulit-ulit, upang magkombina at maiporma ang isang uri ng hierarkiya ng pagproseso ng data. Ito ang kombinatoriyal na elemento na nagbibigay ng pangalang Hyena sa programang ito.

Moreover:Ang mga susunod na bersyon ng ChatGPT ay maaaring palitan ang karamihan ng ginagawa ng mga tao ngayon, ayon kay Ben Goertzel

Ang mga contributing authors ng papel ay kasama sa mga tanyag na personalidad sa mundo ng AI, tulad ni Yoshua Bengio, ang scientific director ng MILA, na isang recipient ng 2019 Turing Award, ang katumbas ng Nobel Prize sa computing. Si Bengio ay malawakang kinilala sa pag-develop ng mekanismo ng pansin bago pa man gamitin ito ni Vaswani at ng kanyang koponan para sa Transformer.

Kabilang din sa mga may-akda ang associate professor ng computer science sa Stanford University na si Christopher Ré, na tumulong nitong mga nakaraang taon sa pagpapalawak ng ideya ng AI bilang "software 2.0".

Upang hanapin ang isang sub-quadratic na alternatibo sa pansin, sinimulan ni Poli at ang kanyang koponan ang pag-aaral kung paano ginagawa ng mekanismong pang pansin ang kanyang tungkulin, upang malaman kung maaaring mas mabilis na maisakatuparan ang gawain na iyon.

Isang kamakailang praktis sa siyensya ng AI, kilala bilang makasining na interpretabilidad, ay naglalabas ng mga kaalaman tungkol sa ang nangyayari sa malalim na loob ng isang neural network, sa loob ng mga computational "sirkito" ng atensyon. Maaari mong isipin ito bilang pagsira sa software kung paano mo paghihiwalayin ang isang orasan o isang PC upang makita ang mga bahagi nito at alamin kung paano ito gumagana.

Dagdag pa:Ginamit ko ang ChatGPT upang isulat ang parehong rutina sa 12 pinakasikat na programming language. Narito kung paano ito gumawa

Isang gawain na binanggit ng grupo ni Poli ay isang set ng mga eksperimento ng mananaliksik na si Nelson Elhage ng simula ng AI na Anthropic. Ang mga eksperimentong ito ay pinag-aralan ang mga programa ng Transformer upang malaman kung anong ginagawa ng atensyon.

Sa kasalukuyan, ang natuklasan ni Elhage at ng kanyang koponan ay ang pag-andar ng atensiyon sa pinakasimpleng antas nito sa pamamagitan ng simpleng mga operasyon sa computer, tulad ng pagkopya ng isang salita mula sa pinakabagong input at pagpapalabas nito.

Halimbawa, kung magsimula ang isang tao na mag-type sa isang malaking programang pang-wika tulad ng ChatGPT ng isang pangungusap mula sa Harry Potter at ang Bato ng Salamangka, tulad ng "Si G. Dursley ang direktor ng isang kompanyang tinatawag na Grunnings...", ang pagtitipon lamang ng "D-u-r-s", ang simula ng pangalan, ay maaaring sapat upang hikayatin ang programang kumpletuhin ang pangalang "Dursley" dahil nakita na ng programa ang pangalan sa isang nakaraang pangungusap ng Bato ng Salamangka. Ang sistema ay kayang kopyahin mula sa memorya ang tala ng mga titik na "l-e-y" upang kapusin ang pangungusap.

Bukod pa: Ayon sa futurist, mas katulad ng 'alien intelligence' ang ChatGPT kaysa isang utak ng tao

Gayunpaman, ang operasyon ng pansin ay nagpapakita ng problema ng quadratic complexity habang lumalaki ang dami ng mga salita. Mas maraming salita ang nangangailangan ng mas maraming "weights" o mga parametro, upang mapatakbo ang operasyon ng pansin.

Batay sa sinulat ng mga awtor: "Ang Transformer block ay isang malakas na kasangkapan para sa pagmomodelo ng mga sunud-sunurang pangyayari, ngunit hindi ito walang limitasyon. Isa sa pinakamahalagang katangian nito ay ang mataas nitong gastos sa pag-compute, na naglalaki ng mabilis kapag lumalaki ang haba ng input na sunud-sunurang pangyayari."

Samantalang ang mga detalye ng pagiging teknikal ng ChatGPT at GPT-4 ay hindi pa ibinunyag ng OpenAI, naniniwala na maaaring may isang trilyon o higit pang mga ganitong parameter. Ang pagpatakbo ng mga parameter na iyon ay nangangailangan ng mas maraming mga GPU chip mula sa Nvidia, at gayon ay nagpapataas ng gastos sa pagkalkula.

Upang bawasan ang halaga ng pag-compute na quadratic, pinalitan ni Poli at ng kanyang koponan ang operasyon ng atensyon sa tinatawag na "convolution", na isa sa mga pinakamatagal na operasyon sa mga programa ng AI, na nabalikat noong 1980s. Ang convolution ay simpleng isang filter na maaaring pumili ng mga bagay sa data, maaaring ito ay ang mga piksel sa isang digital na larawan o ang mga salita sa isang pangungusap.

Also:Tagumpay ni ChatGPT maaaring magdulot ng masamang paglipat sa kahinahinalang AI, sabi ni Bengio na pundasyon ng AI

Si Poli at ang kanyang team ay gumagawa ng isang uri ng mash-up: kanilang ginagamit ang gawain na ginawa ni Daniel Y. Fu at ang kanyang team mula sa Stanford para mag-apply ng convolutional filters sa mga sunud-sunod na salita, at pinagsasama nila ito sa gawain ni David Romero at ang kanyang mga kasamahan sa Vrije Universiteit Amsterdam na nagbibigay daan sa programa na magpalit ng laki ng filter habang ito'y nasa paggana. Ang kakayahang ito na magbagong-bagong pangangalap ng impormasyon ay nakakabawas sa bilang ng mga mahalagang parameter, o timbang, na kinakailangan ng programa.

Ang resulta ng mash-up ay na ang isang convolution ay maaaring gamitin sa walang hanggang dami ng teksto nang hindi nangangailangan ng mas maraming mga parameter upang kopyahin ang mas maraming mga data. Ito ay tinatawag na isang "attention-free" na paraan, gaya ng binanggit ng mga may-akda.

"Ang mga operator ng Hyena ay kayang malakiang maibaba ang barya ng kalidad na may atensiyon sa malaking saklaw," ang isinusulat ni Poli at ng kanilang koponan, "natatamo ang parehong pagkaguluhan at kahusayang dulot nito sa isang mas maliit na badyet sa pagcompute." Ang kahulugan ng Palaisipan ay isang teknikal na terminong tumutukoy sa kung gaano kahusay ang sagot na nalilikha ng isang programa tulad ng ChatGPT.

Upang ipakita ang kakayahan ng Hyena, sinusubukan ng mga may-akda ang programa laban sa isang serye ng mga pamantayan upang matukoy kung gaano kagaling ang isang wika sa iba't ibang mga gawain ng AI.

Kasama rin: 'May kakaibang mga bagay na nangyayari sa software,' sinabi ni Chris Ré, propesor ng AI sa Stanford

Ang isa pang pagsusuri ay ang The Pile, isang koleksyon ng mga teksto na may sukat na 825 gigabyte na binuo noong 2020 ng Eleuther.ai, isang non-profit na AI research outfit. Ang mga teksto ay kinokolekta mula sa mga "mahusay na kalidad" na mga pinagmulan tulad ng PubMed, arXiv, GitHub, ang US Patent Office, at iba pa, upang ang mga pinagmulan ay may mas malawak na anyo kaysa sa mga talakayan lamang sa Reddit, halimbawa.

Ang pangunahing hamon para sa programa ay mag-produce ng susunod na salita kapag ibinigay ang maraming bagong pangungusap bilang input. Ang programa ng Hyena ay nakamit ang katulad na score ng orihinal na GPT programa ng OpenAI mula noong 2018, na may 20% na mas kaunting operasyon sa pag-compute -- "ang unang attention-free, convolution architecture upang tumugma sa kalidad ng GPT" na may mas kaunting operasyon, sabi ng mga mananaliksik.

Sumunod, sinubukan ng mga may-akda ang program sa mga gawain sa pag-iisip na kilala bilang SuperGLUE, na inilunsad noong 2019 ng mga dalubhasa mula sa New York University, Facebook AI Research, Google's DeepMind unit, at University of Washington.

Halimbawa, kapag binigyan ng pangungusap na "Ang aking katawan ay nagtatapon ng anino sa damo", at dalawang alternatibong dahilan, "ang araw ay nag-uunat" o "ang damo ay inayos", at hiniling na pumili lamang ng isa sa dalawa, ang programa ay dapat magbaol "ang araw ay nag-uunat" bilang ang nararapat na output.

Sa maraming mga gawain, ang programa ng Hyena ay nakamit ang mga marka na halos katulad o malapit sa isang bersyon ng GPT habang itinuturo sa kalahating halaga lamang ng pagsasanay na datos.

Dagdag pa: Paano gamitin ang bagong Bing (at kung paano ito kaiba sa ChatGPT)

Mas nakakainam pa ay kung ano ang nangyari kapag nagdagdag ng haba ng mga pangungusap bilang input: mas maraming salita ay nagdulot ng mas magandang pagpapabuti sa pagganap. Sa 2,048 "tokens", na maaari mong ituring na mga salita, mas kaunting oras ang kailangan ng Hyena upang matapos ang isang gawain sa wika kumpara sa approach sa attention.

Sa 64,000 token, sinasabi ng mga awtor, "Umabot ang Hyena sa bilis na 100x" - isang isandaang-kabuuan na pagpapabuti sa pagganap.

Itinatanggi ni Poli at ng kanyang team na sinubukan lamang nilang gamitin ang ibang paraan sa Hyena, sila ay "bumasag sa quadratic barrier", na nagdulot ng kwalitatibong pagbabago sa kung gaano kahirap para sa isang programa na mag-compute ng mga resulta.

Iniimpliyahan nila na mayroon ding potensyal na malalaking pagbabago sa kalidad sa mas malalim na bahagi ng daan: "Ang pagbusi sa quadratic barrier ay isang mahalagang hakbang tungo sa mga bagong posibilidad para sa malalim na pag-aaral, tulad ng paggamit ng buong mga aklat bilang konteksto, paglikha ng mahabang musika o pagsasala ng mga larawang may gigapixel scale," ang kanilang sinabi.

Ang kakayahan ng Hyena na gamitin ang isang filter na mas epektibo sa libu-libong salita, sinulat ng mga awtor, ay nangangahulugang may halos walang limitasyon sa "konteksto" ng isang query sa isang programa sa wika. Ito ay maaaring maalala ang mga elemento ng mga teksto o ng mga nakaraang usapan na malayo sa kasalukuyang usapin -- tulad ng mga hyena na naghahabol ng milya-milya.

Dagdag pa: Ang pinakamahusay na AI chatbots: ChatGPT at iba pang nakakatuwang alternatibo na subukan

"Ang mga operator ng Hyena ay may walang limitasyong konteksto," ang kanilang sinasabi. "Ibig sabihin, hindi sila artipisyal na pinagbabawal tulad ng lokalidad, at maaaring matuto ng mga malayong kaugnayan sa pagitan ng anumang elemento ng [input]."

Bukod pa, bukod sa mga salita, ang programang ito ay maaring magamit sa iba't ibang uri ng datos, tulad na lamang ng mga imahe at marahil mga bidyo at tunog.

Mahalagang tandaan na ang programang Hyena na ipinapakita sa papel ay maliit sa sukat kumpara sa GPT-4 o kahit sa GPT-3. Samantalang mayroon ang GPT-3 na 175 bilyong mga parameter, o bigat, ang pinakamalaking bersyon ng Hyena ay may lamang 1.3 bilyong mga parameter. Samakatuwid, mananatiling hindi malinaw kung gaano kaganda ang performance ng Hyena sa isang komprehensibong paghahambing sa GPT-3 o 4.

Ngayon, kung ang nakamit na kahusayan ay magpatuloy sa mga mas malalaking bersyon ng programa ng Hyena, ito ay maaaring maging bagong paradaym na katulad ng kahalagahan ng pansin na naging malawak na kapansin-pansin sa nagdaang dekada.

Habang natatapos si Poli at ang kanyang koponan: "Mas simple na mga sub-quadratic na disenyo tulad ng Hyena, na nakabatay sa isang hanay ng simpleng gabay na prinsipyo at pagtatasa sa mga benchmark ng mekanistikong pagkaunawa, ay maaaring magsilbing batayan para sa mga epektibong malalaking modelo."

Ang bagong teknolohiya na ito ay maaaring itulak pabalik ang GPT-4 at lahat ng katulad nito

Kaugnay na mga Artikulo