سطوح مختلفNvidia Nemotron 3 نانو، سوپر و اولترا
بازدید 4

Nvidia Nemotron 3 با معماری هیبریدی MoE و Mamba معرفی شد

انویدیا، که در حال حاضر یکی از باارزش‌ترین شرکت‌های جهان محسوب می‌شود، نسخه جدید مدل‌های مرزی پیشرفته خود به نام نموترون ۳ را عرضه کرد. این شرکت با تکیه بر یک معماری مدل نوین، اعلام کرده است که Nvidia Nemotron 3 دقت و قابلیت اطمینان بیشتری را برای استفاده در عوامل هوش مصنوعی فراهم می‌کند. هدف انویدیا از طراحی این مدل، نمایش تعهد خود به یادگیری و بهبود مستمر نسبت به نسخه‌های قبلی مدل‌هایشان بوده است.

معماری هیبریدی: کلید کارایی و مقیاس‌پذیری

برای ساخت مدل‌های نموترون ۳، انویدیا بر معماری «ترکیب متخصصان هیبریدی» (MoE) تکیه کرده است تا مقیاس‌پذیری و کارایی مدل را ارتقا بخشد. انویدیا در بیانیه‌ای مطبوعاتی اعلام کرد که استفاده از این معماری نوین، انعطاف‌پذیری و عملکرد بیشتری را هنگام ساخت سیستم‌های خودمختار چندعاملی در اختیار شرکت‌ها قرار می‌دهد. کاری بریسکلی، معاون نرم‌افزار هوش مصنوعی مولد در انویدیا، اشاره کرد که این شرکت موقعیت منحصربه‌فردی برای خدمت‌رسانی به توسعه‌دهندگان متنوع دارد؛ توسعه‌دهندگانی که به دنبال انعطاف‌پذیری کامل برای شخصی‌سازی مدل‌های خود به منظور ساخت هوش مصنوعی تخصصی هستند. این امر از طریق ترکیب معماری هیبریدی جدید ترکیب متخصصان با طول زمینه یک میلیون توکن امکان‌پذیر می‌شود.
برخی از اولین شرکت‌هایی که نموترون ۳ را به کار گرفته‌اند شامل Accenture، CrowdStrike، Cursor، Deloitte، EY، Oracle Cloud Infrastructure، Palantir، Perplexity، ServiceNow، Siemens و Zoom هستند.

مدل‌های Nemotron 3 در سه اندازه متمایز

مدل‌هایNvidia Nemotron 3 در سه اندازه مختلف در دسترس توسعه‌دهندگان قرار گرفته‌اند که هر کدام برای کاربردهای خاصی بهینه‌سازی شده‌اند:

  1.  نموترون ۳ نانو (Nemotron 3 Nano): این مدل با ۳۰ میلیارد پارامتر، عمدتاً برای انجام وظایف بسیار کارآمد و هدفمند طراحی شده است.
  2.  نموترون ۳ سوپر (Nemotron 3 Super): این مدل ۱۰۰ میلیارد پارامتری برای کاربردهای چندعاملی و نیاز به استدلال با دقت بالا به کار می‌رود.
  3.  نموترون ۳ اولترا (Nemotron 3 Ultra): این مدل بزرگ‌ترین موتور استدلال را دارد و با حدود ۵۰۰ میلیارد پارامتر، برای کاربردهای پیچیده‌تر مورد استفاده قرار می‌گیرد.

نوآوری‌های پیشگامانه در معماری

انویدیا در بسیاری از مدل‌های خود، از جمله Nemotron-Nano-9B-v2، از معماری ترکیب متخصصان هیبریدی ترانسفورمر-مامبا استفاده کرده است. این معماری بر اساس پژوهش‌های دانشگاه کارنگی ملون و پرینستون بنا شده و از مدل‌های فضای حالت انتخابی بهره می‌برد تا بتواند قطعات طولانی اطلاعات را در عین حفظ حالت‌ها مدیریت کند. این ویژگی امکان کاهش هزینه‌های محاسباتی را حتی در زمینه‌های طولانی فراهم می‌آورد.
بریسکلی توضیح داد که این معماری هیبریدی ترانسفورمر-مامبا چندین برابر سریع‌تر عمل می‌کند و حافظه کمتری مصرف می‌نماید، زیرا از نقشه‌های توجه بزرگ و حافظه‌های کلیدی-مقدار (key value caches) برای هر توکن اجتناب می‌نماید. انویدیا تاکید کرده است که طراحی آن‌ها در مقایسه با نموترون ۲ نانو، تا ۴ برابر توان عملیاتی توکن بیشتری را به دست می‌آورد. علاوه بر این، این معماری می‌تواند با کاهش تولید توکن‌های استدلال، هزینه‌های استنتاج را تا ۶۰ درصد به شکل قابل توجهی کاهش دهد. بریسکلی خاطر نشان کرد که افزایش کارایی و کاهش هزینه برای هر توکن، از طریق نوآوری‌های مدل معماری محقق شده است.

مفهوم “MoE پنهان” در مدل‌های بزرگ‌تر

انویدیا نوآوری دیگری را نیز برای مدل‌های نموترون ۳ سوپر و اولترا معرفی کرده که آن را “ترکیب متخصصان پنهان” یا «Latent MoE» نامیده است. بریسکلی این معماری را این‌گونه تشریح کرد: «در این روش، تمام متخصصانی که در مدل شما حضور دارند، یک هسته مشترک را به اشتراک می‌گذارند و تنها بخش کوچکی را خصوصی نگه می‌دارند. این شبیه آشپزهایی است که یک آشپزخانه بزرگ مشترک دارند، اما هر یک نیاز به قفسه ادویه مخصوص خود دارند». اگرچه انویدیا تنها شرکتی نیست که از این نوع معماری استفاده می‌کند، (به عنوان مثال، AI21 Labs نیز از آن برای مدل‌های جامبا استفاده می‌کند)، این رویکرد به کارایی بالا کمک شایانی می‌رساند.
مدل‌های نموترون ۳ از یادگیری تقویتی توسعه‌یافته بهره برده‌اند. همچنین، مدل‌های بزرگ‌تر یعنی سوپر و اولترا، از فرمت آموزش ۴ بیتی NVFP4 انویدیا استفاده کرده‌اند که به آن‌ها اجازه می‌دهد بدون به خطر انداختن دقت، با زیرساخت‌های موجود آموزش ببینند.

ابزارهای جدید برای “ورزش دادن” به مدل‌ها

در راستای عرضه نموترون ۳، انویدیا دسترسی کاربران به تحقیقات خود را از طریق انتشار مقالات، نمونه‌های دستورات (prompts) و مجموعه‌داده‌های باز که در آن‌ها افراد می‌توانند توکن‌های پیش از آموزش و نمونه‌های پس از آموزش را بررسی کنند، فراهم می‌آورد. مهم‌ترین بخش این عرضه، معرفی NeMo Gym است.
NeMo Gym یک آزمایشگاه یادگیری تقویتی است که در آن مشتریان می‌توانند مدل‌ها و عوامل خود را در محیط‌های شبیه‌سازی شده اجرا کنند تا عملکرد آن‌ها را پس از آموزش ارزیابی نمایند. هدف انویدیا از انتشار اطلاعات بیشتر در مورد نحوه آموزش مدل‌ها، کمک به توسعه‌دهندگانی است که به دنبال مدل‌های باز بسیار هوشمند و با عملکرد بالا هستند تا بتوانند در صورت نیاز، آن‌ها را بهتر هدایت کنند. انویدیا همچنین اعلام کرد نمونه‌های داده‌های پس از آموزشی که قصد انتشار آن‌ها را دارد، از نظر اندازه به مراتب بزرگ‌تر از هر مجموعه داده پس از آموزش موجود و در عین حال بسیار باز و قابل دسترس هستند.
بریسکلی توضیح داد که توسعه‌دهندگان امروزی با یک چالش سه‌گانه دشوار روبرو هستند: آن‌ها نیاز به مدل‌هایی دارند که هم فوق‌العاده باز، هم بسیار هوشمند و هم به شدت کارآمد باشند. او افزود که بیشتر مدل‌های باز، توسعه‌دهندگان را مجبور می‌کنند تا بین کارایی‌هایی مانند هزینه‌های توکن، تأخیر و توان عملیاتی، مصالحه‌های دردناکی را بپذیرند. در نهایت، توسعه‌دهندگان می‌خواهند بدانند که مدل چگونه آموزش دیده است، داده‌های آموزشی از کجا آمده‌اند و چگونه می‌توانند آن را ارزیابی کنند.

سوالات متداول

1.  معماری کلیدی نموترون ۳ انویدیا چیست؟

معماری کلیدی نموترون ۳، معماری هیبریدی «ترکیب متخصصان» (MoE) است که با معماری ترانسفورمر-مامبا (Mamba-Transformer) ترکیب شده و به بهبود مقیاس‌پذیری و کارایی مدل‌ها کمک می‌کند.

2.  نموترون ۳ در چند اندازه موجود است و کاربرد اصلی هر کدام چیست؟

نموترون ۳ در سه اندازه موجود است: نموترون ۳ نانو (برای وظایف هدفمند و کارآمد با ۳۰ میلیارد پارامتر)، نموترون ۳ سوپر (برای کاربردهای چندعاملی با ۱۰۰ میلیارد پارامتر) و نموترون ۳ اولترا (برای کاربردهای پیچیده‌تر با ۵۰۰ میلیارد پارامتر).

3. Nemotron 3 چه مزایای کارایی نسبت به نسخه‌های قبلی دارد؟

معماری جدید Nemotron 3 می‌تواند توان عملیاتی توکن را تا ۴ برابر افزایش دهد و با کاهش تولید توکن‌های استدلال، هزینه‌های استنتاج را تا ۶۰ درصد پایین بیاورد.

4. “Latent MoE” یا ترکیب متخصصان پنهان چیست؟

Latent MoE نوآوری است که در مدل‌های سوپر و اولترا به کار رفته و به این معنی است که متخصصان درون مدل یک هسته مشترک را به اشتراک می‌گذارند و تنها بخش کوچکی را خصوصی نگه می‌دارند، که باعث افزایش کارایی می‌شود.

5. NeMo Gym چیست و انویدیا چه ابزارهای دیگری را برای توسعه‌دهندگان منتشر کرده است؟

NeMo Gym یک آزمایشگاه یادگیری تقویتی است که به کاربران اجازه می‌دهد مدل‌های خود را در محیط‌های شبیه‌سازی شده اجرا کرده و عملکرد پس از آموزش آن‌ها را آزمایش کنند. انویدیا همچنین مقالات تحقیقاتی، نمونه‌های دستورات و مجموعه‌داده‌های باز گسترده‌ای را منتشر می‌کند.

نظرات کاربران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *