Какой номер у парковки?
Внимательно посмотрите на картинку и дайте ответ. А что ответил искусственный интеллект – читайте в этой статье.
Какие нейронки использовал
Я в своей работе (решение производственных и конструкторских проблем) использую следующие нейросети: DeepSeek, Qwen, Perplexity и иногда GigaChat. Все они доступные в России без впн и какой-то сложной регистрации. Да почти все бесплатные! Только у Perplexity расширенный функционал за доллары. Но и бесплатного – вполне достаточно.
Что это за нейронки и как их подключить – не буду повторяться, есть в других моих статьях.
Perplexity
Начал я с этого искусственного интеллекта. Загрузил файл с картинкой. И как остальным нейросетям, я задал достаточно простой промт:
Изучи изображение и дай ответ на вопрос, который есть на этом изображении.
Такое ощущение, что Perplexity повела себя как балагур-подчинённый, к которому неожиданно подошёл начальник и что-то спросил. Но как соображающий балагур: ответ был выдан быстро. Очень короткий, с похожими на логические связи цепочки рассуждений. Но неправильный. Почему-то нейросеть посчитала, что автомобиль занял место 88.
Пришлось указать на ошибку:
И правильный ответ не заставил себя долго ждать!
Попытался сбить нейронку с толку – мол, и сейчас ошиблась – не помогло. Хотя, бывает, что мнение своё меняет.
Qwen
У Qwen относительно недавно появилась функция анализа изображений по частям. И, такое ощущение, что этот китаец хвалится этой функцией. Иногда действительно можно увидеть что-то новое для себя в таких анализируемых картинках. Но не в этот раз.
Эта нейросеть обстоятельно расписала каждый шаг своего анализа этой задачи. И как она увеличивала каждый фрагмент картинки, и что она видела…
Исписала два экрана текстом и дала правильный ответ.
DeepSeek
Неожиданно. Осенью прошлого года разработчики заявили, что DeepSeek теперь умеет анализировать изображения. Пару раз я закидывал картинки, но анализ был достаточно поверхностный – узнавала только крупные детали. А под Новый год вообще эту функцию отключили. Либо картинка не грузилась, либо сразу появлялось сообщение, что данный тип файла прочитать не может. А тут неожиданно прочитала и дала правильный ответ!
GigaChat
Разработка Сбера. Держу её в поле зрения, так как случись что и остались мы без зарубежных разработок. ChatGPT – на территории России не доступен вообще (только с магией). Perplexity (разработка США) – расширенную версию обычным способом не купить на российскую карточку. Но с этими всё ясно. Но некоторые китайские нейронки – тоже ограниченно доступны! Например, китайский Klign при помощи которого делают картинки и видео, нельзя оплатить российской картой. Так что, надо страховаться.
Так вот, GigaChat. Недавно приятно обновился – работают. Вроде как добавили Кандинского (тоже разработка Сбера), но мне не понравилось то, что многие функции (особенно дорисовки) исчезли!
И, к сожалению, хоть интерфейс и стал приятнее и понятнее, но ума не особо прибавилось.
На мой промт: «Изучи изображение и дай ответ на вопрос, который есть на этом изображении», я получил быстрый, но не верный ответ – 88.
Ну ладно. Было такое. Указываю на ошибку, прошу лучше подумать. Результат – признал, что ошибся и 96.
По его логике, между местами 88 и 98 автомобиль занял именно девяносто шестое место!
Ну почему?! Почему из 9 номеров выбран именно этот?!
«Вы правы. Ответ – 94»
Говорят, что грубое обращение с нейронками помогает повысить точность ответа. Похоже, это не этот случай.
А потом были дважды вариант «88» и вариант «86». И я сдался…
Почему это важно
Современные нейросети дают возможность общаться с ними не только при помощи текста, но и при помощи картинок. Картинки, кстати, могут нести больше информации, чем способен человек описать словами. Часто человек может и не видеть, что есть на картинке: «смотрит, но не видит».
А нейросеть может увидеть. Как, например, другой человек (которого рядом может и не оказаться, а нейросеть всегда в телефоне). И у меня вопрос, а что может увидеть та или иная нейросеть и как она мне может помочь в решении производственных и конструкторских проблем? Как с ней более эффективно общаться при помощи изображений?
Представляете: фотографируете нужным образом процесс или узел, задаёте правильный промт и за пять минут получаете способы решения проблемы! Красота!
Заключение
Кто ещё не сообразил, попробуйте посмотреть на парковку с другой стороны. А я пока покажу итоговую таблицу моего эксперимента.
Для тех, кто поленился подумать над задачкой у меня две новости.
Первая новость. Задачка относительно простая. Уровня начальной школы. Если и дальше так пойдёт, можете остаться без работы. Ну или вы немного отдохнули и с пользой – узнали про нейронки. 😊
Вторая новость. Правильный ответ 87. Вы сейчас смотрите на картинку и читаете цифры слева на право. Взгляд на парковку как бы сверху от бордюра. Если посмотреть на парковку сверху и со стороны дороги, то цифры надо будет читать справа на лево и их надо будет перевернуть: 86, ??, 88, 89…












