OpenAI GPT-4 Dumating sa Gitnang Marso 2023

Ang CTO ng Microsoft Germany, si Andreas Braun, ay nagkumpirma na darating ang GPT-4 sa loob ng isang linggo mula Marso 9, 2023 at ito ay magiging multimodal. Ang multimodal na AI ay nangangahulugang ito ay magkakaroon ng kakayahan na mag-operate gamit ang iba't ibang uri ng input, tulad ng bidyo, mga larawan at tunog.

Na-update: Inilabas ang GPT-4 noong Marso 14, 2023

Inilabas ng OpenAI ang GPT-4 noong Marso 14, 2023. Ito ay isang multimodal na modelo na tumatanggap ng mga imahe at teksto bilang mga prompt.

Ang "Modal" ay isang parirala na ginagamit sa machine learning upang tukuyin ang mga anyo ng input tulad ng tekstongunit pati na rin ang mga kahulugan tulad ng tunog, tanawin, amoy, at iba pa.

Inilarawan ng anunsyo ng OpenAI ang lawak ng mga pagpapahusay sa GPT-4:

“…habang mas kahinaan kumpara sa mga tao sa maraming tunay na pangyayari, ipinakikita ang pagganap na katulad ng mga tao sa iba't ibang propesyonal at akademikong mga pamantayan.

Halimbawa, pumapasa ito sa isang simuladong pagsusulit sa abogasya na may iskor na nasa halos nasa pinakamataas na 10% ng mga kumuha ng pagsusulit; sa kumpara, ang iskor ng GPT-3.5 ay nasa pinakamababang 10%.

Naglaan kami ng 6 na buwang pag-aayos ng GPT-4 sa pamamagitan ng mga aral mula sa aming programa ng laban-laban na pagsusulit pati na rin ang ChatGPT, na nagresulta sa aming pinakamahusay na mga resulta (bagaman malayo pa sa pagiging perpekto) sa katotohanan, kakayahang pangunahan, at pagtanggi na lumabas sa mga pamantayan.”

Multimodal Malalaking Mga Modelo ng Wika

Ang malaking kahalagahan ng pahayag ay ang GPT-4 ay multimodal (inipinababasa ng SEJ sa GPT-4 ay multimodal noong Enero 2023).

Ang modality ay tumutukoy sa uri ng input na hinihingi ng isang malaking modelo ng wika.

Ang multimodal ay maaaring maglaman ng tekstong, pananalita, larawan, at bidyo.

GPT-3 at GPT-3.5 ay nag-ooperate lamang sa isang modality, teksto.

Ayon sa ulat ng mga balita mula sa Germany, maaaring magamit ng GPT-4 ang hindi bababa sa apat na modalitya, mga larawan, tunog (aural), teksto at video.

Sinabi ni Dr. Andreas Braun, CTO ng Microsoft Germany:

"Ipagtatanghal namin ang GPT-4 sa susunod na linggo, doon ay magkakaroon tayo ng mga multimodal na modelo na mag-aalok ng lubos na iba't ibang mga posibilidad - halimbawa, mga bidyo..."

Ang pag-uulat ay kulang sa mga detalye para sa GPT-4, kaya hindi malinaw kung ang ipinahayag tungkol sa multimodality ay tiyak na para sa GPT-4 o pangkalahatan lamang.

Si Microsoft Director ng Business Strategy na si Holger Kenn ay nagpaliwanag tungkol sa mga multimodality ngunit hindi malinaw kung tinutukoy niya ang GPT-4 multimodality o multimodality sa pangkalahatan.

Ako'y naniniwala na ang kanyang mga sanggunian sa multimodality ay tiyak na tumutukoy sa GPT-4.

Ang balita ay ibinahagi:

"Si Kenn ay ipinaliwanag kung ano ang multimodal AI, na maaaring mag-translate ng teksto hindi lamang sa mga larawan, kundi pati na rin sa musika at video."

Ang isa pang kawili-wiling katotohanan ay ang pagsisikap ng Microsoft sa "mga metriko ng kumpiyansa" upang patatagin ang kanilang AI sa pamamagitan ng mga katotohanan upang gawin itong mas maaasahan.

Microsoft Kosmos-1

May isang bagay na tila hindi gaanong nababalitaan sa Estados Unidos ay ang paglabas ng Microsoft ng isang multimodal na language model na tinatawag na Kosmos-1 noong simula ng Marso 2023.

Ayon sa ulat ng German news site, Heise.de:

“...ang koponan ay sumailalim sa iba't ibang pagsusuri ang pre-trained na modelo, na may magandang mga resulta sa pagkaklasipika ng mga larawan, pagtugon sa mga tanong tungkol sa nilalaman ng larawan, awtomatikong pamamarkahan ng mga larawan, pagkilala sa optikal na teksto, at mga gawain sa pagkakabuo ng mga pangungusap.

…Napapaisipang biswal, halimbawa, na maglagay ng konklusyon ukol sa mga larawan na hindi gumagamit ng wika bilang isang kinakailangang hakbang, ay tila mahalaga dito…

Ang Kosmos-1 ay isang multimodal na modalidad na nagpapagsama ng mga modalidad ng teksto at mga imahe.

Gumawa ng miyentras si GPT-4 sa paraan na nagdaragdag ng ikatlong modality, video, at tila kasama din ang modality ng tunog.

Nagtatrabaho Sa Maraming Wika

Ang GPT-4 ay tila gumagana sa lahat ng mga wika. Ito ay inilarawan bilang may kakayahang tanggapin ang isang tanong sa Aleman at sagutin sa Italyano.

Ang laki naman ng halimbawang iyan dahil sino ang magtatanong sa Aleman at gustong tumanggap ng sagot sa Italiano?

Ito ang napatunayang:

"...ang teknolohiya ay umabot sa puntong halos "gumagana ito sa lahat ng mga wika": Maaari kang magtanong sa Aleman at makakuha ng sagot sa Italino.

Sa pamamagitan ng multimodality, itataguyod ng Microsoft(-OpenAI) ang pagiging 'kumprehensibo ng mga modelo'."

Ako ay naniniwala na ang punto ng pag-abot ay ang kakayahan ng modelo na lumampas sa wika sa pamamagitan ng kanyang kakayahan na magdala ng kaalaman sa iba't ibang mga wika. Kaya kung ang sagot ay nasa Italyano, alam niya ito at kaya nitong magbigay ng sagot sa wika kung saan ito'y tinatanong.

Itatala ito na parang katulad ng layunin ng multimodal AI ng Google na tinatawag na MUM. Sinasabi na ang MUM ay kayang magbigay ng mga sagot sa Ingles para sa mga datos na nagmumula sa ibang wika, tulad ng Hapones.

Paggamit ng GPT-4

Wala pang kasalukuyang pahayag kung saan lilitaw ang GPT-4. Pero binanggit nang espesyal ang Azure-OpenAI.

Ang Google ay nahihirapang humabol sa Microsoft sa pamamagitan ng pag-integrate ng isang kumpitensyang teknolohiya sa sarili nitong search engine. Ang pag-unlad na ito ay nagpapalala pa sa paniniwalang ang Google ay nalalamangan at kulang sa pangunguna sa AI na nakikipag-ugnay sa mga mamimili.

Ang Google ay nagpapakilos na ng AI sa iba't ibang produkto tulad ng Google Lens, Google Maps at iba pang mga lugar kung saan makikipag-ugnayan ang mga mamimili sa Google. Ang pamamaraang ito ay upang gamitin ang AI bilang isang assistive technology, upang tulungan ang mga tao sa mga maliit na gawain.

Ang paraan ng pagpapatupad ng Microsoft ay mas napapansin kaya't ito ay nakakakuha ng buong atensyon at nagpapalakas sa larawan ng Google bilang nag-aagaw-kasiyahan at nagpupumilit na makahabol.

Basahin ang opisyal na pahayag ng paglunsad ng OpenAI GPT-4 dito.

Basahin ang orihinal na ulat sa Aleman dito:

Dadating ang GPT-4 sa susunod na linggo – at ito ay magiging multimodal, ayon sa Microsoft Germany

Ang OpenAI GPT-4 ay darating sa gitna ng Marso 2023

Na-update: Inilabas ang GPT-4 noong Marso 14, 2023

Multimodal Malalaking Mga Modelo ng Wika

Microsoft Kosmos-1

Nagtatrabaho Sa Maraming Wika

Paggamit ng GPT-4

Kaugnay na mga Artikulo