Исследование: ИИ плохо справляется со считыванием показаний часов. БЯМ.. БЯМ. время.. БЯМ. время. даты.. БЯМ. время. даты. ИИ.. БЯМ. время. даты. ИИ. искусственный интеллект.. БЯМ. время. даты. ИИ. искусственный интеллект. исследование.. БЯМ. время. даты. ИИ. искусственный интеллект. исследование. Исследования и прогнозы в IT.. БЯМ. время. даты. ИИ. искусственный интеллект. исследование. Исследования и прогнозы в IT. календари.. БЯМ. время. даты. ИИ. искусственный интеллект. исследование. Исследования и прогнозы в IT. календари. научно-популярное.. БЯМ. время. даты. ИИ. искусственный интеллект. исследование. Исследования и прогнозы в IT. календари. научно-популярное. часы.. БЯМ. время. даты. ИИ. искусственный интеллект. исследование. Исследования и прогнозы в IT. календари. научно-популярное. часы. языковые модели.

Учёные Эдинбургского университета проверили способность семи мультимодальных больших языковых моделей интерпретировать и генерировать различные типы информации, включая ответы на вопросы о времени на основе различных изображений часов и календарей. Исследователи пришли к выводу, что БЯМ испытывают трудности с этими базовыми задачами.

Исследование: ИИ плохо справляется со считыванием показаний часов - 1

Способности интерпретировать и рассуждать о времени на основе визуальных входных данных имеют решающее значение для многих реальных применений — от планирования событий до автономных систем, отмечают авторы работы.

Несмотря на достижения в области мультимодальных БЯМ, большая часть работы над ними была сосредоточена на обнаружении объектов и надписей на изображениях, оставляя выводы о времени недостаточно изученными, продолжают исследователи.

Команда учёных протестировала GPT-4o и o1 от OpenAI, Gemini 2.0 от Google DeepMind, Claude 3.5 Sonnet от Anthropic, Llama 3.2-11B-Vision-Instruct от Meta*, Qwen2-VL7B-Instruct от Alibaba и MiniCPM-V-2.6 от ModelBest. 

Исследователи предоставляли моделям различные изображения аналоговых часов, включая циферблаты с римскими цифрами, разных цветов и без секундной стрелки. Также в модели загрузили изображения календарей за 10 лет.

Учёные задавали различные вопросы о времени и датах. Например, на какие числа выпадает Новый год или 153-й день в году.

Считывание показаний аналоговых часов и понимание календаря требует сложных когнитивных этапов, включая детальное визуальное распознавание (положение стрелок часов и расположение ячеек дня) и нетривиальных числовых рассуждений (смещение дней в високосном году), отмечает научная группа.

В целом ИИ-модели правильно считывали время на аналоговых часах менее чем в 25% случаев. БЯМ с трудом понимали показания часов с римскими цифрами и стилизованными стрелками так же, как и изображения без секундной стрелки. Проблема может быть связана с обнаружением стрелок и интерпретацией углов на циферблате, объясняют исследователи.

Gemini-2.0 показала наивысший результат в задаче с часами, а o1 была более точна в работе с календарём, но эта модель ошибалась примерно в 20% случаев.

Текущее исследование подчёркивает значительный пробел в способности ИИ выполнять базовые для людей действия, отмечает соавтор исследования и аспирант Школы информатики Эдинбургского университета Рохит Саксена. По его словам, подобные недостатки необходимо устранить для успешного внедрения ИИ-систем в чувствительные ко времени приложения.

Препринт научной работы «Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs» опубликован 7 февраля 2025 года на сайте arxiv.org (DOI: arXiv.2502.05092 [cs.CV]).

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
* — признана экстремистской организацией, её деятельность в России запрещена;
** — запрещены в России.

Автор: Travis_Macrif

Источник

Рейтинг@Mail.ru
Rambler's Top100