Loob ChatGPT: Pag-unawa OpenAIMga Modelo ng Transformer Foundation

Generative Pretrained Transformers

ChatGPT kinuha ang mundo sa pamamagitan ng bagyo sa kanyang mahusay na mga tugon tulad ng tao na pinapagana sa likod ng mga eksena ng advanced AI. Sa partikular, utang nito ang mga likas na kakayahan sa wika sa isang pamilya ng mga modelo na tinatawag Generative Pretrained Transformers (GPT) binuo ng kumpanya ng pananaliksik OpenAI.

Sa post na ito, ide-demystify namin kung paano gumagana ang mga modelong ito ng transformer at kung paano pinagana ang mga ito ChatGPTkahanga-hangang pagganap.

Mga GPT - Mga Modelong Foundation para sa NLP

Generative Pretrained Transformers

Sa isang mataas na antas, ang mga modelo ng GPT ay makapangyarihang "mga modelo ng pundasyon" na naglalayon sa mga gawain sa natural na wika tulad ng pagbuo ng teksto.

Nauna na sila pretrained sa napakalaking text corpora – nakakakuha ng hanggang daan-daang bilyong salita mula sa mga pinagmumulan tulad ng mga website, aklat, at Wikipedia. Nagbibigay-daan ito sa mga GPT na malalimang suriin ang mga pattern sa wika ng tao.

Pagkatapos ng pretraining, ang mga modelo ay maaaring pinong-tono sa mas tiyak na mga dataset para i-customize ang kanilang mga kakayahan. Halimbawa, isang pangunahing layunin ng fine-tuning para sa ChatGPT ay kakayahang makipag-usap - nagpapahintulot sa pabalik-balik na pag-uusap na batay sa mga katotohanan.

Sa sunud-sunod na bersyon, OpenAIAng mga modelo ng GPT ay naging kapansin-pansing mas advanced dahil pinalawak ng mas malalaking dataset at computational power kung ano ang posible.

Sa loob ng GPT: Ang Arkitektura ng Transformer

Sa ilalim ng hood, ang mga modelo ng GPT ay gumagamit ng isang nakabatay sa atensyon na deep learning architecture na kilala bilang ang transpormer.

Ang mga transformer ay isang pambihirang tagumpay sa natural na pagpoproseso ng wika, na nalampasan ang mga mas lumang pamamaraan sa mga gawain tulad ng pagsasalin na nangangailangan ng pag-unawa sa konteksto ng salita. Ang kanilang mga pangunahing inobasyon:

  • Mga layer ng pansin sa sarili suriin kung paano nauugnay ang bawat salita sa bawat isa sa isang pangungusap
  • Nagbibigay-daan ito sa mga modelo ng transformer tulad ng GPT na malalim na maunawaan ang mga masalimuot na relasyon sa text sa halip na magproseso nang sunud-sunod

Sa panahon ng pretraining, binibigyang-daan ito ng arkitekturang transformer ng GPT na matuklasan ang napakasalimuot na mga pattern sa konteksto na nasa wika ng tao mula sa napakalaking dataset nito.

Pagkatapos ay sa panahon ng fine-tuning para sa mga application tulad ng ChatGPT, ang modelo ng pundasyon ay maaaring makabuo ng mga bagong magkakaugnay, makabuluhang mga pangungusap na angkop sa mga natutunang istruktura.

GPT-3.5: Ang Inisyal ChatGPT Pundasyon

Ang unang bersyon na ginamit sa kapangyarihan ChatGPT ay GPT-3.5, isang pinalaki na variant ng GPT-3.

Ang GPT-3 mismo ay namangha sa mundo nang ilunsad noong 2020 dahil sa kalidad, pagkakaugnay-ugnay, at pagkamalikhain ng mga output nito.

Sa pamamagitan ng pagbuo sa tuktok ng mga kakayahan ng GPT-3 at custom na fine-tuning para sa mga kakayahan sa pakikipag-usap, pinagana ang GPT-3.5 ChatGPTAng kahanga-hangang matatas na pag-andar ng pag-uusap.

GPT-4: 2-5x Mas May Kakayahan, 98% Mas Kaunting Pag-compute

Gayunpaman, sa totoong bleeding edge AI fashion, ang mga pag-ulit ng GPT ay mabilis na sumusulong. Kamakailan lamang, OpenAI inihayag ang pinakabagong GPT-4 na iniulat na 2-5x na mas may kakayahan sa karamihan ng mga gawain sa wika habang nangangailangan ng 98% na mas kaunting kapangyarihan sa pag-compute.

Maaaring payagan ang paggamit ng GPT-4 ChatGPT upang maabot ang mga bagong taas sa mga sukatan tulad ng kalidad ng output, katumpakan ng katotohanan, lalim ng dialog, at higit pa.

At ang modelo ng tren ng transformer foundation ay malamang na patuloy na bumibilis mula rito. Sa patuloy na data at compute scaling na inaasahan sa hinaharap na mga bersyon ng GPT, mataas ang pananabik para sa kung ano ang maaaring maging posible sa lalong madaling panahon.

Bukod sa mga kakayahan ng nobela, nananatiling mahalaga ang pagbibigay-kahulugan sa mga modelong ito nang maingat - mayroon silang mga kapansin-pansing limitasyon sa kabila ng hype sa kanilang mga output. Ngunit ang responsableng pag-unlad ay maaaring paganahin ang napakalaking kapaki-pakinabang na mga aplikasyon.

Kaya panoorin ang espasyong ito! Malamang na nabasa pa lang natin kung ano ang maaaring makamit ng malakas ngunit ligtas na AI.

Loob ChatGPT: Pag-unawa OpenAIMga Modelo ng Transformer Foundation

Mag-iwan ng Sagot

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan *

Scroll sa tuktok