Nvidia представляє відкриту LLM модель Nemotron-4 340B

Nvidia нещодавно представила свою нову відкриту LLM модель Nemotron-4 340B, яка наразі є однією з найбільших після DeepSeek-V2 236B. Ця модель має розмір 340 мільярдів параметрів, що дозволяє їй змагатися з GPT-4-1106, випущеною в листопаді 2023 року. Nemotron-4 340B демонструє як виграші, так і програші в порівнянні з GPT-4-1106, але загалом складає паритет за результатами тестування людиною.

Особливості Nemotron-4 340B

Nemotron-4 340B була навчена на понад 50 природних мовах та більш ніж 40 мовах програмування. Модель використовує архітектуру, що базується на Grouped-Query Attention (GQA) та Rotary Position Embeddings (RoPE). Однак, довжина контексту моделі становить лише 4096 токенів, що може бути обмеженням для деяких завдань.

Різновиди Nemotron-4 340B

Nvidia представила три різновиди Nemotron-4 340B:

  • Nemotron-4-340B-Base – призначена для генерації синтетичних даних.
  • Nemotron-4-340B-Instruct – призначена для чату та виконання інструкцій.
  • Nemotron-4-340B-Reward – base модель з додатковим лінійним шаром для навчання за допомогою нового підходу reward.

Ліцензія та використання

Nemotron-4 340B поширюється під ліцензією NVIDIA Open Model License Agreement, яка дозволяє комерційне використання моделі. Це означає, що розробники можуть використовувати модель для створення комерційних продуктів та сервісів.

Порівняння Nemotron-4 340B з іншими моделями

МодельРозмірАрхітектураДовжина контексту
Nemotron-4 340B340BGQA, RoPE4096
GPT-4-1106НевідомоНевідомоНевідомо
DeepSeek-V2 236B236BНевідомоНевідомо

Поради для використання Nemotron-4 340B

Ось кілька порад для ефективного використання Nemotron-4 340B:

  1. Використовуйте Nemotron-4-340B-Base для генерації синтетичних даних, щоб розширити свої навчальні набори.
  2. Використовуйте Nemotron-4-340B-Instruct для створення чат-ботів та виконання інструкцій.
  3. Використовуйте Nemotron-4-340B-Reward для навчання моделі з використанням нового підходу reward.
  4. Пам’ятайте про обмеження довжини контексту та враховуйте це при створенні завдань для моделі.

Залишити коментар

Опубліковано на 21 06 2024. Поданий під Інтернет. Ви можете слідкувати за будь-якими відповідями через RSS 2.0. Ви можете подивитись до кінця і залишити відповідь.

ХОЧЕТЕ СТАТИ АВТОРОМ?

Запропонуйте свої послуги за цим посиланням.

Останні новини

Контакти :: Редакція
Використання будь-яких матеріалів, розміщених на сайті, дозволяється за умови посилання на Reporter.zp.ua.
Редакція не несе відповідальності за матеріали, розміщені користувачами та які помічені "реклама".