<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Qwen on БлоGнот</title>
    <link>https://blognot.co/tags/qwen/</link>
    <description>Recent content in Qwen on БлоGнот</description>
    <generator>Hugo</generator>
    <language>ru</language>
    <lastBuildDate>Thu, 19 Mar 2026 13:34:59 +0000</lastBuildDate>
    <atom:link href="https://blognot.co/tags/qwen/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Как запустить большую LLM на ноутбуке</title>
      <link>https://blognot.co/kak-zapustit-bolshuyu-llm-na-noutbuke/</link>
      <pubDate>Thu, 19 Mar 2026 13:34:59 +0000</pubDate>
      <guid>https://blognot.co/kak-zapustit-bolshuyu-llm-na-noutbuke/</guid>
      <description>&lt;p&gt;tl;dr — никак.&lt;/p&gt;&#xA;&lt;p&gt;Для тех, кто желает знать подробности, давайте разбираться.&lt;/p&gt;&#xA;&lt;p&gt;На днях по твиттеру прошли сразу две волны. Во-первых, Андрей Карпати (один из основателей OpenAI, автор термина vibe-coding и вообще практически культовая личность, без иронии) опубликовал свой фреймворк &lt;a href=&#34;https://github.com/karpathy/autoresearch&#34;&gt;Autoresearch&lt;/a&gt;, который изначально разрабатывал для обучения моделей. Суть проекта в том, чтобы дать AI-агенту на базе Claude или Codex пайплайн для тренировки небольшой модели и оставить его на ночь экспериментировать. Агент, соответственно, ставит эксперимент, модифицируя код для обучения модели, прогоняет обучение в течение 5 минут, если качественный показатель val_bpb (validation bits per byte) улучшился, то есть стал меньше, то коммитит код и начинает цикл сначала, если нет — откатывает изменение и опять начинает цикл.&lt;/p&gt;&#xA;&lt;p&gt;Этот подход потом применил CEO Shopify Тоби Лютке для оптимизации фреймворка Liquid, который используется на фронтенде Shopify, и &lt;a href=&#34;https://x.com/tobi/status/2032212531846971413&#34;&gt;получил&lt;/a&gt; 53% сокращения времени на парсинг и рендеринг. В общем, довольно понятно — есть определенные измеряемые параметры, агенту задается направление работы, он итеративно и систематически ставит эксперименты, оптимизируя целевые показатели. Правда, результаты еще не пошли в продакшн — много упавших тестов и конфликтов.&lt;/p&gt;&#xA;&lt;p&gt;Во-вторых, один из специалистов пошел дальше, взял большую модель Qwen 3.5-397B, &lt;a href=&#34;http://arxiv.org/abs/2312.11514&#34;&gt;статью&lt;/a&gt; сотрудников Apple про технику запуска LLM, когда система позволяет использовать SSD как расширение памяти, оставил Claude Code экспериментировать на ночь и после 90 экспериментов &lt;a href=&#34;https://twitter.com/danveloper/status/2034353876753592372&#34;&gt;получил&lt;/a&gt; работающую версию большой LLM на MacBook Pro M3 Max с 48 гигабайтами памяти. Вроде бы ура, победа, правда, сначала была скорость 1 токен в секунду, потом улучшили до 5 токенов, но ведь настоящая большая модель работает на довольно скромном уже ноутбуке.&lt;/p&gt;&#xA;&lt;p&gt;В общем, я заинтересовался и пошел читать. Вот &lt;a href=&#34;https://simonwillison.net/2026/Mar/18/llm-in-a-flash/#atom-everything&#34;&gt;тут есть беглый комментарий&lt;/a&gt; Саймона Уиллисона, который скромно замечает, что не очень понятно, как все эти оптимизации отразились на качестве работы. У меня даже сомнений нет — плохо отразились, поскольку физику не обманешь.&lt;/p&gt;&#xA;&lt;p&gt;Что сделал Claude Code, оптимизируя модель? Прежде всего — применил агрессивную квантизацию экспертов. Qwen 3.5 — это модель с Mixture-of-Experts (MoE), где каждый токен генерируется только частью факторов (17B из 397B) и частью экспертов. Исходная версия была квантизована до 4 бит, что позволила её сократить до 120 гигабайт. В данном случае экспертов квантизовали до 2 бит, что очень агрессивно и обычно плохо сказывается на точных рассуждениях и математике. Если квантизация до 4 бит действительно приводит к потере 1-3% от 8-битной версии, то дальше зависимость нелинейная.&lt;/p&gt;&#xA;&lt;p&gt;Кроме того, оригинальная конфигурация предусматривает выбор 10 экспертов на каждый токен. Здесь в результате оптимизации их количество урезали до 4 — то есть модель реально думает примерно третью &amp;ldquo;мозга&amp;rdquo; на каждом шаге. Опять же, Claude, занимавшийся оптимизацией, уверяет, что качество заметно не ухудшилось, но это буквально проверка на трех простых примерах, а не по результатам бенчмарков.&lt;/p&gt;&#xA;&lt;p&gt;Было бы интересно сравнить получившийся результат с младшими моделями Qwen, например, с помещающейся в памяти без подобных оптимизаций qwen 3.5-30B-A3B, то есть с 30 млрд параметров, из которых активны 3. Если на стандартных бенчмарках &amp;ldquo;оптимизированный&amp;rdquo; вариант большой модели лучше маленькой — это практический успех. Если нет — надо оптимизировать дальше.&lt;/p&gt;&#xA;&lt;p&gt;А если такого сравнения нет — то это маркетинг и proof-of-concept с действительно интересной, но непроверенной гипотезой. Нет, автор не запустил Qwen 3.5-397B на ноутбуке, он запустил что-то другое.&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
