کد مطلب: ۹۱۷۷۹۷

|

|

نگارمگ اخبار اخبار علمی آموزشی

۱۷ مهر ۱۴۰۴ - ۱۱:۳۱

مدل زبان جدید GPT-۵ Pro عرضه شد!

مدل زبان جدید GPT-۵ Pro عرضه شد!

OpenAI در رویداد Dev Day خود در روز دوشنبه، مدل زبان جدید GPT-۵ Pro، مدل تولید ویدیو Sora ۲ و مدل صدای کوچک‌تر و ارزان‌تری را معرفی کرد تا توسعه‌دهندگان را به اکوسیستم خود جذب کند.

به گزارش مجله خبری نگار/ایمنا و به نقل از تک کرانچ، OpenAI نسخه «Pro» از GPT-۵ را برای کاربرد‌های سازمانی و حرفه‌ای معرفی کرده است. GPT-۵ Pro با مصرف محاسباتی بالاتر برای «تفکر عمیق‌تر» طراحی شده و ادعا می‌شود که در زمینه‌هایی همچون مالی، حقوقی و بهداشت عملکرد استدلالی و دقت پاسخ‌دهی بهتری ارائه می‌دهد. این نسخه برای کسب‌وکار‌ها و سرویس‌های حساس به دقت اطلاعات ساخته شده تا بتواند تحلیل‌های پیچیده، خلاصه‌سازی اسناد طولانی و پشتیبانی مشاورانه با کیفیت بالاتر را فراهم کند.

Sora ۲ — ورود نسل جدید تولید ویدیو با صوت هم‌زمان

Sora ۲، مدل جدید تولید ویدیوی OpenAI، تمرکز ویژه‌ای روی واقع‌گرایی فیزیکی، هماهنگی دیالوگ و جلوه‌های صوتی هم‌زمان دارد. توسعه‌دهندگان با استفاده از Sora ۲ می‌توانند ویدیو‌های کوتاه و بلند با کنترل خلاقانه روی حرکات، نورپردازی و گفتار ایجاد کنند و از امکاناتی مانند «cameo» برای وارد کردن صدا یا تصویر کاربر در صحنه بهره ببرند. OpenAI اعلام کرده که Sora ۲ حول بهبود شبیه‌سازی دنیای فیزیکی و کنترل‌پذیری نسبت به نسل‌های قبلی طراحی شده است.

gpt-realtime-mini — صوت سریع و اقتصادی

یکی از اخبار جذاب برای سازندگان سرویس‌های صوتی، معرفی gpt-realtime-mini است؛ یک مدل صوتی/Realtime کوچک‌تر که برای تعاملات صوتی با تأخیر پایین طراحی شده و هزینهٔ بسیار کمتری نسبت به مدل realtime قبلی دارد (گزارش‌ها از کاهش هزینه در حدود ۷۰ درصد نسبت به نسخهٔ قبلی خبر می‌دهند). این مدل می‌تواند پاسخ‌های صوتی بلادرنگ تولید کند و برای ساخت بات‌های صوتی، تماس‌هوشمند، ترجمه هم‌زمان و رابط‌های گفتاری مقیاس‌پذیر مناسب است.

چه تغییراتی برای توسعه‌دهندگان و کسب‌وکار‌ها به‌وجود می‌آید؟

با این به‌روزرسانی‌ها، OpenAI به‌صورت آشکار مسیر خود را به سمت ارائه مجموعه ابزار‌های «چندرسانه‌ای برای توسعه‌دهندگان» پیش می‌برد: زبان، صوت، تصویر و ویدیو در قالب API‌هایی قابل دسترسی قرار می‌گیرند و ابزار‌هایی نظیر AgentKit و Apps SDK به توسعه‌دهندگان کمک می‌کنند تا عامل‌ها (agents) و اپلیکیشن‌هایی بسازند که از چند مدل به‌صورت ترکیبی استفاده می‌کنند. این ترکیب به کسب‌وکار‌ها امکان می‌دهد محصولات نوآورانه‌ای مثل پشتیبان‌های حقوقی صوتی-متنی، تولید محتوای ویدیویی خودکار برای تبلیغات و سیستم‌های آموزشی تعاملی بسازند.

ریسک‌ها، حقوق مالکیت فکری و مقررات

پیشرفت در تولید ویدیو و صدا نگرانی‌هایی دربارهٔ سوءاستفاده و نقض حقوق مالکیت فکری یا تولید محتوای گمراه‌کننده ایجاد می‌کند. گزارش‌ها نشان می‌دهد که OpenAI در کنار عرضهٔ فناوری‌های جدید، در حال کار روی ابزار‌های کنترل استفاده و پاسخ به نگرانی‌های حقوق‌داران (مثل امکان ثبت شکایت یا محدودسازی استفاده از شخصیت‌ها) است؛ بنابراین سازندگان محتوا و کسب‌وکار‌ها باید هم‌زمان با بهره‌گیری از مدل‌ها، چارچوب‌های حقوقی و اخلاقی را هم در نظر گیرند.

نکات کلیدی برای خوانندگان و توسعه‌دهندگان

چه چیزی عرضه شده؟ GPT-۵ Pro، Sora ۲ و gpt-realtime-mini همراه با ابزار‌های توسعه‌دهنده (AgentKit/Apps SDK).

چه فایده‌ای دارد؟ ساخت اپ‌های صوتی بلادرنگ اقتصادی، تولید ویدیوی واقع‌گرایانه و بهبود پاسخ‌های تخصصی در حوزه‌های حساس.

هزینه و دسترسی: مدل‌های «mini» برای کاهش هزینه و افزایش مقیاس‌پذیری طراحی شده‌اند؛ اطلاعات قیمت و دسترسی در مستندات رسمی و صفحهٔ API موجود است.

لینک کپی شد

اشتراک‌ گذاری

۰ پسندیدم

گزارش خطا

برچسب ها: هوش مصنوعی

ارسال نظرات

انتشار یافته: ۰ |

در انتظار بررسی: ۰ |

غیر قابل انتشار: ۰

قوانین ارسال نظر