12

Ответ на пост «Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!»

Вангую : Скайнет будет на китайском языке 😆

Буквально вчера они(в телеге) писали про модель Qwen2.5-1M от Alibaba, а теперь они выпустили Qwen2.5-Max, которая обогнала по мощности DeepSeek и GPT-4o.

Qwen2.5-Max предобучен на более чем 20 триллионах токенов и использует передовые методы пост-обучения. Архитектура позволяет эффективно масштабировать модель.

Главный акцент сделан на мышлении и логике.

Модель отвечает на вопросы уровня университетских экзаменов, умеет качественно кодить, создавать игры и искать актуальную информацию. Также может анализировать видео и изображения. И это лишь малая часть её способностей.

При этом доступна бесплатно и без VPN.

Опробовать можно здесь (выберите в списке Qwen2.5-Max).

DeepSeek похоронил OpenAI, а Alibaba похоронил DeepSeek. Великая битва.

з.ы.

Во время китайского «Голубого огонька» в честь местного Нового года на сцене появились роботы и исполнили танец.

Показать полностью 2 1
81

Ответ на пост «Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!»

😱 Китайский DeepSeek навёл шума в мире ИИ и обвалил бигтех США на почти полтора триллиона долларов.

1651

Ответ на пост «Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!»

По финансовой стороне ничего не скажу, ваш рассказ звучит правдоподобно, к тому же я в этом не разбираюсь.

Зато более-менее разбираюсь в алгоритмической стороне. Я тут не самый глубокий спец, занимаюсь БЯМами всего полгода. Но и не знаток типа "промпт-инженеров", а действительно по работе работаю с кодом, пытаюсь разбираться в математике, и мы БЯМы и тренируем (а также доучиваем, дистиллируем, сервируем).

Так вот.

Как же им это удалось? Они переосмыслили всё с нуля! Традиционный ИИ — это как писать каждое число с 32 знаками после запятой. А DeepSeek такие: "А давайте использовать всего 8? Этого вполне достаточно!" Бум! На 75% меньше памяти! Умно, правда?

Чушь. С квантованием (почему-то последние годы это называют квантизацией, но традиционный термин ещё из XX века - квантование. Да, при машинной работе с числами этот подход применяется с тех пор, когда нейросети были двуслойными, а "традиционного машинного обучения" еще вовсе не придумали)... С квантованием в больших языковых моделях экспериментируют уже много лет. Чаще применяют уже для инференса (вплоть до 1-битных моделей), но и тренировать так пытаются.

Бум! На 75% меньше памяти! Умно, правда?

И скорость каждого прохода выше. Но при одинаковом количестве проходов заметно хуже качество.

Кстати, FP32 - это не 32 знака после запятой, а около 6. В десятичной системе. В двоичной побольше, 23 (не 32).

4. Дальше их система "мульти-токенов". Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". А DeepSeek читает целыми фразами сразу! В два раза быстрее и с точностью 90%. Когда у тебя миллиарды слов — это как найти иголку в стоге сена!

Опять ахинея. Во-первых, чаще всего БЯМы, в том числе и GPT, в качество токенов берут не слова. Используется так называемый подход BPE, и типичный токен - несколько букв. А GPT использует byte-level BPE, что, с учетом символов за границами ASCII, означает, что токен может быть даже частью одной буквы, или полутора символами, например.

Во-вторых, DeepSeek использует ровно тот же подход. Конкретный алгоритм токенизации, использующийся и в моделях DeepSeek'а, и в моделях OpenAI, опубликован еще в 1999 году, его авторы - японцы.

Откуда же ваша ахинея про "мультитокены" и "целые фразы сразу"? Возможно, вы неправильно поняли выражение multi-token prediction. Речь о подходе speculative decoding. Вроде бы восходит он к работе 2018 года (совместная работа "Гугла" и Беркли), но особенно активная работа пошла с публикациями начала 2023 года. Эти работы всем специалистам хорошо известны, в том числе применяли его для ускорения и ламы, и мистраля, и других известных моделей. Американцам он тоже известен: среди авторов тех работ двухлетней давности был, например, Вей из "Микрософта".

Возможно также, что вы неправильно поняли термин Multi-head Latent Attention (MLA). Действительно, этот новаторский подход позволяет в некотором смысле смотреть на всю фразу в целом. Но новаторский он отнюдь не в этом отношении: предыдущие подходы (GQA, MQA и MHA) точно так же смотрели на всю фразу. MHA (multi-head attention) вообще появился в той самой ключевой работе 2017 года, с которой и началось победоносное шествие разных GPT.

А в плане чтения токен за токеном DeepSeek точно так же двигается по одному токену. Правда, умеет предсказывать ещё один, что позволяет несколько (менее чем в два раза) ускорять инференс.

5. Но самое интересное — это их "экспертная система". Вместо того чтобы иметь одного огромного ИИ, который пытается знать всё (как если бы один человек был одновременно врачом, юристом и инженером), у них есть специализированные эксперты, которые активируются только тогда, когда это действительно нужно.

"Смесь экспертов" - MoE - придумали тоже не в DeepSeek. Например, французский "Микстраль" опубликован более года назад.

Китайцы совершили прорыв, придумав свои новшества и удачно применив те подходы, что были известны ранее. Но ни одно из ваших объяснений их успеха не имеет ничего общего с действительностью.

Показать полностью
1958

Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!

Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!

Что за чудо-юдо такое DeepSeek, и почему Nvidia вдруг схватилась за сердце?

Давайте я вам расскажу одну занимательную историю от нашего доброго друга Моргана Брауна — вице-президента по развитию продуктов в Instagram, Dropbox и Shopify. Этот парень точно знает, о чем говорит!

Так вот, инновации DeepSeek в мире искусственного интеллекта просто сносят крышу! А для Nvidia, у которой капитализация в $2 триллиона, это как гром среди ясного неба.

1. Сначала немного предыстории: обучение топовых моделей ИИ сейчас стоит целое состояние! OpenAI и Anthropic тратят по $100 миллионов только на вычислительные ресурсы. Это вам не шутки — представьте себе завод, которому нужна целая электростанция для работы!

2. И тут появляются DeepSeek и говорят: "А что если мы сделаем это за $5 миллионов?" И не просто говорят — делают! Их модели уже соперничают с GPT-4 и Claude по многим задачам. Мир ИИ плачет от счастья в тирамису!

3. Как же им это удалось? Они переосмыслили всё с нуля! Традиционный ИИ — это как писать каждое число с 32 знаками после запятой. А DeepSeek такие: "А давайте использовать всего 8? Этого вполне достаточно!" Бум! На 75% меньше памяти! Умно, правда?

4. Дальше их система "мульти-токенов". Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". А DeepSeek читает целыми фразами сразу! В два раза быстрее и с точностью 90%. Когда у тебя миллиарды слов — это как найти иголку в стоге сена!

5. Но самое интересное — это их "экспертная система". Вместо того чтобы иметь одного огромного ИИ, который пытается знать всё (как если бы один человек был одновременно врачом, юристом и инженером), у них есть специализированные эксперты, которые активируются только тогда, когда это действительно нужно.

6. Традиционные модели? Все 1,8 триллиона параметров работают всегда. А у DeepSeek всего 671 миллиард параметров, но активны только 37 миллиардов одновременно. Это как иметь большую команду, но вызывать только тех специалистов, кто нужен для конкретной задачи.

7. Результаты впечатляют:
- Стоимость обучения: $100 миллионов → $5 миллионов
- Необходимые GPU: 100 000 → 2 000
- Стоимость API: на 95% дешевле
- Может работать на игровых GPU вместо дорогущего серверного оборудования

8. "Но подождите," — скажете вы, — "должен быть подвох!" Вот что интересно — всё это открытый исходный код! Любой может проверить их работу. Код публичный, технические документы объясняют всё. Это не магия, а просто невероятно умная инженерия!

9. Почему это важно? Потому что теперь не только крупные компании могут играть в ИИ! Вам больше не нужен дата-центр за миллиард долларов. Пара хороших GPU могут сделать своё дело!

10. Для Nvidia это настоящий кошмар! Их бизнес-модель построена на продаже супердорогих GPU с маржой в 90%. Если вдруг все смогут делать ИИ на обычных игровых GPU...

11. DeepSeek сделали всё это с командой менее 200 человек! В то время как в Meta есть команды, где одни только зарплаты сотрудников превышают весь бюджет обучения DeepSeek... и их модели не так уж хороши.

12. Это классическая история прорыва: лидеры рынка оптимизируют существующие процессы, а новаторы переосмысляют сам подход. DeepSeek задали вопрос: "А что если мы просто сделаем это умнее?"

13. Последствия:
- Разработка ИИ становится доступнее
- Конкуренция резко возрастает
- Железо крупных компаний кажется ненужным
- Требования к оборудованию (и затраты) стремительно снижаются

14. Конечно, такие гиганты как OpenAI и Anthropic не будут сидеть сложа руки. Они уже внедряют эти инновации! Но джинн выпущен из бутылки — возврата к старым методам уже не будет.

15. Это момент исторического значения — как когда ПК сделали мейнфреймы менее актуальными или когда облачные вычисления перевернули мир с ног на голову.

ИИ скоро станет доступнее и дешевле! Вопрос лишь в том, насколько быстро произойдут эти изменения для текущих игроков на рынке!

Показать полностью 1
Отличная работа, все прочитано!