- BrainTools - https://www.braintools.ru -
Когда компания выпускает новый видеогенератор с искусственным интеллектом [1], нередко кто-то использует его для создания видео, где актер Уилл Смит ест спагетти. Это стало своеобразным мемом и тестом: проверить, насколько реалистично новый генератор может изобразить Смита, поглощающего тарелку лапши. Даже сам Смит пошутил [2]над этим трендом в Instagram* в феврале.
Уилл Смит и паста — лишь один из нескольких необычных “неофициальных” тестов [3], которые будут популярны в AI-сообществе в 2024 году. Например, 16-летний разработчик создал приложение, позволяющее AI управлять Minecraft и проверять его способность проектировать структуры. В другом случае британский программист создал платформу, где AI играет в игры, такие как Pictionary и Connect 4, друг против друга.
Не то чтобы не было других академических тестов на производительность AI. Так почему же провалились самые странные из них?
Во-первых, многие стандартные тесты AI не всегда понятны широкой публике. Компании часто говорят о способности AI решать сложные математические задачи или задачи уровня PhD. Однако большинство людей, используют чат-ботов для более простых задач, таких как ответы на электронные письма и базовые исследования [4].
Отраслевые показатели, основанные на краудсорсинге, тоже не всегда лучше.
Например, Chatbot Arena [5] — публичный бенчмарк, популярный среди энтузиастов AI. Он позволяет пользователям оценивать AI в выполнении задач, таких как создание веб-приложений. Однако участники голосования часто представляют круги AI и IT-индустрии и оценивают результаты на основе личных предпочтений.
Итан Моллик, профессор из Wharton, отметил [6], что многие тесты AI не сравнивают возможности AI с возможностями обычных людей.
“Отсутствие разнообразных критериев в медицине, юриспруденции и других сферах досадно, поскольку люди используют AI для этих целей”, — написал Моллик.
Необычные тесты AI, такие как Connect 4 или видео с Уиллом Смитом, не являются научными. Успех AI в одном тесте не гарантирует успеха в других задачах.
Один эксперт предложил сосредоточиться на влиянии AI, а не на его отдельных возможностях. Это разумно, но странные тесты, вероятно, останутся популярными. Они не только развлекают — кто не любит смотреть, как AI строит замки в Minecraft? — но и легко понятны. Как отметил Макс Зефф, индустрия продолжает искать способы сделать AI более доступным для широкой аудитории. Вопрос лишь в том, какие новые необычные тесты станут вирусными в 2025 году.
Источник [7]
Автор: mefdayy
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/10952
URLs in this post:
[1] интеллектом: http://www.braintools.ru/article/7605
[2] пошутил : https://arstechnica.com/information-technology/2024/02/will-smith-parodies-viral-ai-generated-video-by-actually-eating-spaghetti/
[3] необычных “неофициальных” тестов: https://techcrunch.com/2024/11/05/people-are-using-games-like-pictionary-to-benchmark-ai-now/
[4] ответы на электронные письма и базовые исследования: https://www.fastcompany.com/90878255/why-do-people-use-chatgpt-generative-ai-bots-wordfinder
[5] Chatbot Arena: https://techcrunch.com/2024/09/05/the-ai-industry-is-obsessed-with-chatbot-arena-but-it-might-not-be-the-best-benchmark/
[6] отметил: https://x.com/emollick/status/1868141914522034196
[7] Источник: https://techcrunch.com/2024/12/31/will-smith-eating-spaghetti-and-other-weird-ai-benchmarks-that-took-off-in-2024/
[8] Источник: https://habr.com/ru/companies/bothub/news/871636/?utm_source=habrahabr&utm_medium=rss&utm_campaign=871636
Нажмите здесь для печати.