- BrainTools - https://www.braintools.ru -

Исследование: нейросеть Devin, которую позиционируют как «ИИ-программиста», плохо справляется со своей работой

Исследование: нейросеть Devin, которую позиционируют как «ИИ-программиста», плохо справляется со своей работой - 1

Инструмент Devin, который создатели позиционировали как замену программистам-людям, слабо справляется со своей работой. К такому выводу пришли специалисты научно-исследовательской лаборатории Answer.AI. Протестировав Devin, они обнаружили, что он успешно выполнил только три из двадцати задач. Devin «застревал» в заданиях или создавал слишком сложные, непригодные для использования решения.

Американский стартап Cognition представил [1] нейросеть Devin [2] в марте 2024 года. Разработчики рассказали, что инструмент способен рассуждать, самостоятельно планировать и реализовывать проекты в области написания ПО и принимать по мере их выполнения различные решения. Также ИИ проекта не только обучается, но и исправляет допущенные ошибки [3] и ориентируется в контексте.

Согласно пояснению [4]Cognition, основные возможности нейросети Devin включают в себя:

  • комплексную разработку приложений — создание и развёртывание полнофункциональных веб-приложений, добавление новых опций в проект по мере поступления отзывов от пользователей;

  • адаптацию к новым технологиям — освоение незнакомых инструментов с помощью чтения документации;

  • обучение [5] ИИ — установка и настройка больших языковых моделей на основе инструкций из различных открытых репозиториев;

  • автономное обнаружение ошибок — выявление, исправление и отлаживание проблем в коде. В этом случае Devin выступает полноценным участником в разработке проектов;

  • умение самостоятельно решать программные задачи по веб-разработке и другим направлениям на различных биржах фриланса, включая Upwork.

Как сообщает [6]The Register со ссылкой на исследователей из Answer.AI, испытания Devin начались хорошо: ИИ успешно перенёс данные из базы данных Notion в Google Таблицы и создал трекер для проверки информации о положениях Юпитера и Сатурна. Но по мере продолжения тестов исследователи столкнулись с проблемами.

«Задачи, которые казались простыми, часто занимали дни, а не часы, и Devin застревал в технических тупиках или создавал слишком сложные, непригодные для использования решения. Ещё более тревожной была тенденция нейросети продвигаться с задачами, у которых на самом деле нет решения».

Так, например, Devin попросили развернуть несколько приложений на платформе Railway. Инструмент не понял, что заданный тип приложений не поддерживается на платформе, и провёл больше дня, пробуя нерабочие подходы и галлюцинируя.

Из 20 задач Devin успешно выполнил только три. Помимо двух уже упомянутых, ИИ смог провести исследование разработки бота для Discord на Python. Три других задачи дали неопределённые результаты, а 14 проектов полностью провалились.

«Больше всего беспокоила наша неспособность предсказать, какие задачи будут выполнены успешно. Даже когда ИИ, казалось бы, одерживал победу, он одновременно терпел неудачу из-за сложных, отнимающих много времени способов. Многообещающая автономная природа инструмента стала обузой: Devin тратил дни на поиски невозможных решений вместо того, чтобы распознать задачи без решения».

Это не первый раз, когда работоспособность Devin ставится под сомнение. В апреле 2024 года пользователи Reddit обратили внимание [7] на несостыковки в описании инструмента и промо-роликах.

Автор: AnnieBronson

Источник [8]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11552

URLs in this post:

[1] представил: https://thetechdeck.hashnode.dev/devin-the-first-ai-software-engineer

[2] Devin: https://www.cognition-labs.com/blog

[3] ошибки: http://www.braintools.ru/article/4192

[4] пояснению : https://habr.com/ru/news/799973/

[5] обучение: http://www.braintools.ru/article/5125

[6] сообщает : https://www.theregister.com/2025/01/23/ai_developer_devin_poor_reviews/

[7] обратили внимание: https://habr.com/ru/companies/bothub/articles/808529/

[8] Источник: https://habr.com/ru/news/876794/?utm_source=habrahabr&utm_medium=rss&utm_campaign=876794

www.BrainTools.ru

Rambler's Top100