17:42 | 21.03.25 | Նորություններ | 367
OpenAI ընկերությունը ներկայացրել է GPT-4o-ի վրա հիմնված մոդելներ, որոնք տեքստը փոխակերպում են աուդիոյի՝ օգտագործելով առաջարկված AI ձայներից մեկը։
Բացի այդ, արտագրում են աուդիո ձայնագրությունները եւ ճանաչում խոսքն իրական ժամանակում:
Մոդելներն աջակցում են ավելի քան 100 լեզվի, այդ թվում՝ հայերենի: Առկա է 11 ձայն, որոնց համար հնարավոր է սահմանել տոնը, զգացմունքները եւ բնավորությունը՝ դրանք նկարագրելով տեքստով:
Տեքստից խոսքի նեյրոնային ցանցը հասանելի է OpenAI.fm կայքում անվճար դեմո տարբերակով: Հնարավոր է մուտքագրել առավելագույնը 1000 նիշ:
Նոր մոդելները կփոխարինեն Whisper տեքստից խոսքի նեյրոնային ցանցին, որը OpenAI-ը ներկայացրել էր դեռեւս 2023 թվականին: Նրանք ավելի քիչ են սխալվում բառերում եւ ավելի լավ են ճանաչում խոսքն աղմկոտ միջավայրում, ինչպես նաեւ ավելի հազվադեպ են «հալյուցինացիաներ» ունենում՝ հորինելով գոյություն չունեցող բառեր, նշում են ընկերությունից։
Ի տարբերություն Whisper-ի՝ ընկերությունը չի նախատեսում թողարկել մոդելների բաց կոդով ծածկագիրը։ Դրանք հասանելի են ծրագրավորողներին՝ API-ի միջոցով աշխատելու համար:
gpt-4o-transcribe-ը եւ gpt-4o-mini-transcribe-ը խոսքի ճանաչման եւ տեքստի փոխակերպման մոդելներ են: Նրանց հետ աշխատելն արժե համապատասխանաբար 0,006 դոլար եւ 0,003 դոլար մուտքային աուդիո րոպեի: gpt-4o-mini-tts-ը տեքստը փոխակերպում է աուդիոյի, գեներացված խոսքի 1 րոպեն 0,015 դոլար արժեքով։