OCR Тест Gemini, Claude и GPT 5.1 на рукописной математике
Продолжаю развивать нужное приложение для трекинга прогресса в решении задач по математике и физике. Идея в том, чтобы не просто ставить галочку «сделано», а считать время сессий, ловить «инсайты» (моменты озарения) и получать за это очки.
Но есть одна боль: вбивать формулы в телефон — это одна из причин почему это приложение не было сделано раньше. LaTeX на мобилке набирать практически невозможно, а обычный текст превращается в кашу. Поэтому я решил прикрутить фичу: сфоткал тетрадь — и приложение само перегнало рукописное решение в текст.
Чтобы выбрать, какая нейронка будет крутиться под капотом, я написал бенчмарк и устроил прожарку популярным моделям через OpenRouter. В видео выше — подробный разбор полетов, а ниже — краткая выжимка результатов (спойлер: дорого — не всегда лучше).
Условия задачи
Скормил нейросетям фотографию своего решения алгебраической задачи с корнями, степенями и сокращениями. Почерк у меня понятный вроде... так что нейросетям должно было быть легко.
Задача моделей:
Распознать условие.
Понять ход решения.
Перевести всё это в красивый Markdown.
Аутсайдеры
Сразу отсеялись несколько кандидатов:
OpenAPI GPT-5.1 CodexMax: Наделал кучу ошибок, не смог распознать корень 12-й степени из 128.
Claude Haiku 4.5: Чуть лучше, но приняла мою рукописную единицу за семерку. И степень корня неправильно распозналась. В математике это фатально.
Mistral Small 3.1: Вообще не поняла, что происходит на картинке. Забавно, что её "младшая" версия (Ministral 3B) справилась даже лучше - это мило, но все равно плохо.
Битва титанов и вопрос цены
В финал вышли модели от Google, и тут началось самое интересное — экономика.
Gemini 2.5 Pro Справилась хорошо. Распознала всё, включая разложение числа на степени двойки. Хотя и без особых пояснений (что могло косвенно следовать из промпта задания)
Плюс: Высокая точность, понимает логику.
Минус: Это «думающая» модель. Она долго обрабатывала запрос и сожрала 10 центов (~9-10 рублей) за одну фотку. Для частого использования в приложении — неоправданно дорого.
Gemini 3 Flash Preview А вот это — мой фаворит.
Точность: Почти идеальная. Она распознала каракули и даже дополнила некоторые моменты, где я сократил решение в уме, не расписывая это на бумаге.
Ум: Она не просто переписала текст, а объяснила, откуда взялся модуль числа (корень из квадрата) и почему при раскрытии модуля появился минус. Что я не стал расписывать т.к. это очевидно.
Цена: И самое приятное — запрос стоил 0.4 цента (~40 копеек).
Итог
Разница в цене колоссальная: 10 рублей против 40 копеек при сопоставимом (а местами и лучшем) качестве. Flash Preview работает на "автомате" и ассоциациях, не уходя в глубокие раздумья, но для разбора рукописного текста этого оказалось достаточно.
Пока остановился на ней. Если у вас есть опыт с другими моделями для OCR рукописного текста (особенно формул) — делитесь в комментах, интересно потестить что-то еще.











