Необычные AI-тесты: от Уилла Смита с пастой до Minecraft

Когда компания выпускает новый видеогенератор с искусственным интеллектом ^[1], нередко кто-то использует его для создания видео, где актер Уилл Смит ест спагетти. Это стало своеобразным мемом и тестом: проверить, насколько реалистично новый генератор может изобразить Смита, поглощающего тарелку лапши. Даже сам Смит пошутил ^[2]над этим трендом в Instagram* в феврале.

Уилл Смит и паста — лишь один из нескольких необычных “неофициальных” тестов ^[3], которые будут популярны в AI-сообществе в 2024 году. Например, 16-летний разработчик создал приложение, позволяющее AI управлять Minecraft и проверять его способность проектировать структуры. В другом случае британский программист создал платформу, где AI играет в игры, такие как Pictionary и Connect 4, друг против друга.

Не то чтобы не было других академических тестов на производительность AI. Так почему же провалились самые странные из них?

Во-первых, многие стандартные тесты AI не всегда понятны широкой публике. Компании часто говорят о способности AI решать сложные математические задачи или задачи уровня PhD. Однако большинство людей, используют чат-ботов для более простых задач, таких как ответы на электронные письма и базовые исследования ^[4].

Отраслевые показатели, основанные на краудсорсинге, тоже не всегда лучше.

Например, Chatbot Arena ^[5] — публичный бенчмарк, популярный среди энтузиастов AI. Он позволяет пользователям оценивать AI в выполнении задач, таких как создание веб-приложений. Однако участники голосования часто представляют круги AI и IT-индустрии и оценивают результаты на основе личных предпочтений.

Необычные AI-тесты: от Уилла Смита с пастой до Minecraft - 2

Итан Моллик, профессор из Wharton, отметил ^[6], что многие тесты AI не сравнивают возможности AI с возможностями обычных людей.

“Отсутствие разнообразных критериев в медицине, юриспруденции и других сферах досадно, поскольку люди используют AI для этих целей”, — написал Моллик.

Необычные тесты AI, такие как Connect 4 или видео с Уиллом Смитом, не являются научными. Успех AI в одном тесте не гарантирует успеха в других задачах.

Необычные AI-тесты: от Уилла Смита с пастой до Minecraft - 3

Один эксперт предложил сосредоточиться на влиянии AI, а не на его отдельных возможностях. Это разумно, но странные тесты, вероятно, останутся популярными. Они не только развлекают — кто не любит смотреть, как AI строит замки в Minecraft? — но и легко понятны. Как отметил Макс Зефф, индустрия продолжает искать способы сделать AI более доступным для широкой аудитории. Вопрос лишь в том, какие новые необычные тесты станут вирусными в 2025 году.

Источник ^[7]

Автор: mefdayy

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/10952

URLs in this post:

[1] интеллектом: http://www.braintools.ru/article/7605

[2] пошутил : https://arstechnica.com/information-technology/2024/02/will-smith-parodies-viral-ai-generated-video-by-actually-eating-spaghetti/

[3] необычных “неофициальных” тестов: https://techcrunch.com/2024/11/05/people-are-using-games-like-pictionary-to-benchmark-ai-now/

[4] ответы на электронные письма и базовые исследования: https://www.fastcompany.com/90878255/why-do-people-use-chatgpt-generative-ai-bots-wordfinder

[5] Chatbot Arena: https://techcrunch.com/2024/09/05/the-ai-industry-is-obsessed-with-chatbot-arena-but-it-might-not-be-the-best-benchmark/

[6] отметил: https://x.com/emollick/status/1868141914522034196

[7] Источник: https://techcrunch.com/2024/12/31/will-smith-eating-spaghetti-and-other-weird-ai-benchmarks-that-took-off-in-2024/

[8] Источник: https://habr.com/ru/companies/bothub/news/871636/?utm_source=habrahabr&utm_medium=rss&utm_campaign=871636

Нажмите здесь для печати.