Paano Gumagana ang Watermark ng ChatGPT At Bakit Ito Maaaring Matalo

Ang ChatGPT ng OpenAI ay nagpakilala ng isang paraan upang awtomatikong lumikha ng nilalaman ngunit ang mga planong magpakilala ng tampok na watermarking upang gawing madaling matukoy ay nagpapakaba sa ilang tao. Ito ay kung paano gumagana ang ChatGPT watermarking at kung bakit maaaring may paraan upang talunin ito.

Ang ChatGPT ay isang hindi kapani-paniwalang tool na sabay-sabay na gustong-gusto at kinatatakutan ng mga online publisher, affiliate at SEO.

Gustung-gusto ito ng ilang marketer dahil nakakatuklas sila ng mga bagong paraan para magamit ito para makabuo ng mga brief ng content, outline at kumplikadong artikulo.

Ang mga online na publisher ay natatakot sa pag-asam ng AI content na bumabaha sa mga resulta ng paghahanap, na pumapalit sa mga ekspertong artikulo na isinulat ng mga tao.

Dahil dito, ang balita ng isang tampok na watermarking na nagbubukas ng pagtuklas ng nilalamang akda ng ChatGPT ay inaasahan din nang may pagkabalisa at pag-asa.

Cryptographic na Watermark

Ang watermark ay isang semi-transparent na marka (isang logo o text) na naka-embed sa isang imahe. Ang watermark ay nagpapahiwatig kung sino ang orihinal na may-akda ng akda.

Ito ay higit na nakikita sa mga litrato at lalong nakikita sa mga video.

Ang watermarking text sa ChatGPT ay nagsasangkot ng cryptography sa anyo ng pag-embed ng pattern ng mga salita, titik at bantas sa anyo ng isang lihim na code.

Scott Aaronson at ChatGPT Watermarking

Isang maimpluwensyang computer scientist na nagngangalang Scott Aaronson ang kinuha ng OpenAI noong Hunyo 2022 para magtrabaho sa AI Safety and Alignment.

Ang AI Safety ay isang larangan ng pananaliksik na may kinalaman sa pag-aaral ng mga paraan na maaaring magdulot ng pinsala ang AI sa mga tao at lumikha ng mga paraan upang maiwasan ang ganoong uri ng negatibong pagkagambala.

Ang Distill scientific journal, na nagtatampok ng mga may-akda na nauugnay sa OpenAI, ay tumutukoy sa AI Safety tulad nito:

"Ang layunin ng pangmatagalang kaligtasan ng artificial intelligence (AI) ay upang matiyak na ang mga advanced na AI system ay mapagkakatiwalaang nakaayon sa mga halaga ng tao - na mapagkakatiwalaan nilang gawin ang mga bagay na gusto ng mga tao na gawin nila."

Ang AI Alignment ay ang artificial intelligence field na may kinalaman sa pagtiyak na ang AI ay nakahanay sa mga nilalayon na layunin.

Ang isang malaking modelo ng wika (LLM) tulad ng ChatGPT ay maaaring gamitin sa paraang maaaring sumalungat sa mga layunin ng AI Alignment gaya ng tinukoy ng OpenAI, na lumikha ng AI na nakikinabang sa sangkatauhan.

Alinsunod dito, ang dahilan ng watermarking ay upang maiwasan ang maling paggamit ng AI sa paraang nakakapinsala sa sangkatauhan.

Ipinaliwanag ni Aaronson ang dahilan ng pag-watermark ng output ng ChatGPT:

"Maaaring makatulong ito sa pagpigil sa pang-akademikong plagiarism, malinaw naman, ngunit gayundin, halimbawa, mass generation ng propaganda..."

Paano Gumagana ang ChatGPT Watermarking?

Ang ChatGPT watermarking ay isang sistema na nag-embed ng istatistikal na pattern, isang code, sa mga pagpipilian ng mga salita at kahit na mga bantas.

Ang content na nilikha ng artificial intelligence ay nabuo na may medyo predictable pattern ng pagpili ng salita.

Ang mga salitang isinulat ng mga tao at AI ay sumusunod sa isang istatistikal na pattern.

Ang pagpapalit ng pattern ng mga salitang ginamit sa nabuong content ay isang paraan para “watermark” ang text para maging madali para sa isang system na matukoy kung ito ay produkto ng isang AI text generator.

Ang trick na ginagawang hindi matukoy ang watermarking ng nilalaman ng AI ay ang pamamahagi ng mga salita ay mayroon pa ring random na hitsura na katulad ng normal na nabuong teksto ng AI.

Ito ay tinutukoy bilang isang pseudorandom na pamamahagi ng mga salita.

Ang pseudorandomness ay isang istatistikal na random na serye ng mga salita o numero na hindi talaga random.

Kasalukuyang hindi ginagamit ang ChatGPT watermarking. Gayunpaman Scott Aaronson sa OpenAI ay nasa talaan na nagsasabi na ito ay binalak.

Sa ngayon, ang ChatGPT ay nasa mga preview, na nagbibigay-daan sa OpenAI na matuklasan ang “misalignment” sa pamamagitan ng real-world na paggamit.

Malamang na ang watermarking ay maaaring ipakilala sa isang huling bersyon ng ChatGPT o mas maaga kaysa doon.

Sumulat si Scott Aaronson tungkol sa kung paano gumagana ang watermarking:

"Ang aking pangunahing proyekto sa ngayon ay isang tool para sa istatistikal na watermarking ang mga output ng isang text model tulad ng GPT.
Sa pangkalahatan, sa tuwing bumubuo ang GPT ng ilang mahabang teksto, gusto naming magkaroon ng isang hindi mahahalata na lihim na senyales sa mga pagpipilian nito ng mga salita, na magagamit mo upang patunayan sa ibang pagkakataon na, oo, ito ay nagmula sa GPT."

Ipinaliwanag pa ni Aaronson kung paano gumagana ang ChatGPT watermarking. Ngunit una, mahalagang maunawaan ang konsepto ng tokenization.

Ang tokenization ay isang hakbang na nangyayari sa natural na pagpoproseso ng wika kung saan kinukuha ng makina ang mga salita sa isang dokumento at hinahati-hati ang mga ito sa mga semantic unit tulad ng mga salita at pangungusap.

Binabago ng tokenization ang text sa isang structured na form na magagamit sa machine learning.

Ang proseso ng pagbuo ng teksto ay ang makina na hulaan kung aling token ang susunod batay sa nakaraang token.

Ginagawa ito gamit ang isang mathematical function na tumutukoy sa posibilidad ng kung ano ang susunod na token, kung ano ang tinatawag na probability distribution.

Ano ang susunod na salita ay hinuhulaan ngunit ito ay random.

Ang watermarking mismo ay kung ano ang inilalarawan ni Aaron bilang pseudorandom, dahil may matematikal na dahilan kung bakit naroroon ang isang partikular na salita o punctuation mark ngunit ito ay random pa rin ayon sa istatistika.

Narito ang teknikal na paliwanag ng GPT watermarking:

“Para sa GPT, bawat input at output ay isang string ng mga token, na maaaring mga salita ngunit pati na rin ang mga punctuation mark, bahagi ng mga salita, o higit pa—may kabuuang 100,000 token.
Sa kaibuturan nito, ang GPT ay patuloy na bumubuo ng probability distribution sa susunod na token na bubuo, na may kondisyon sa string ng mga nakaraang token.
Pagkatapos makabuo ng pamamahagi ng neural net, ang OpenAI server ay aktwal na nagsa-sample ng isang token ayon sa pamamahagi na iyon—o ilang binagong bersyon ng pamamahagi, depende sa isang parameter na tinatawag na 'temperatura.'
Hangga't ang temperatura ay nonzero, gayunpaman, kadalasan ay magkakaroon ng ilang randomness sa pagpili ng susunod na token: maaari kang tumakbo nang paulit-ulit gamit ang parehong prompt, at makakuha ng ibang pagkumpleto (ibig sabihin, string ng mga output token) sa bawat pagkakataon .
Kaya sa watermark, sa halip na piliin ang susunod na token nang random, ang ideya ay piliin ito nang pseudorandomly, gamit ang isang cryptographic pseudorandom function, na ang susi ay kilala lamang sa OpenAI.

Ang watermark ay mukhang ganap na natural sa mga nagbabasa ng teksto dahil ang pagpili ng mga salita ay ginagaya ang randomness ng lahat ng iba pang mga salita.

Ito ang teknikal na paliwanag:

“Upang ilarawan, sa espesyal na kaso na ang GPT ay mayroong maraming posibleng mga token na hinuhusgahan nito na pantay na posibilidad, maaari mong piliin lamang ang alinmang token na pinalaki ng g. Ang pagpipilian ay magmumukhang pare-parehong random sa isang taong hindi alam ang susi, ngunit ang isang taong nakakaalam ng susi ay maaaring mag-sum g sa lahat ng n-grams at makita na ito ay napakalaki."

Ang Watermarking ay isang Privacy-first Solution

Nakakita ako ng mga talakayan sa social media kung saan iminungkahi ng ilang tao na maaaring panatilihin ng OpenAI ang isang talaan ng bawat output na nabubuo nito at gamitin iyon para sa pagtuklas.

Kinumpirma ni Scott Aaronson na magagawa iyon ng OpenAI ngunit ang paggawa nito ay nagdudulot ng isyu sa privacy. Ang posibleng pagbubukod ay para sa sitwasyon ng pagpapatupad ng batas, na hindi niya idinetalye.

Paano Matukoy ang ChatGPT o GPT Watermarking

Ang isang bagay na kawili-wili na tila hindi pa kilala ay nabanggit ni Scott Aaronson na mayroong isang paraan upang talunin ang watermarking.

Hindi naman niya sinabing posibleng talunin ang watermarking, kaya niyang talunin.

“Ngayon, lahat ito ay matatalo ng sapat na pagsisikap.
Halimbawa, kung gumamit ka ng isa pang AI para i-paraphrase ang output ng GPT—okay lang, hindi namin ma-detect iyon."

Mukhang matatalo ang watermarking, kahit noong Nobyembre nang ginawa ang mga pahayag sa itaas.

Walang indikasyon na kasalukuyang ginagamit ang watermarking. Ngunit kapag ginamit na ito, maaaring hindi alam kung sarado ang butas na ito.

Sipi

Basahin ang post sa blog ni Scott Aaronson dito.