- BrainTools - https://www.braintools.ru -

Инструмент Devin, который создатели позиционировали как замену программистам-людям, слабо справляется со своей работой. К такому выводу пришли специалисты научно-исследовательской лаборатории Answer.AI. Протестировав Devin, они обнаружили, что он успешно выполнил только три из двадцати задач. Devin «застревал» в заданиях или создавал слишком сложные, непригодные для использования решения.
Американский стартап Cognition представил [1] нейросеть Devin [2] в марте 2024 года. Разработчики рассказали, что инструмент способен рассуждать, самостоятельно планировать и реализовывать проекты в области написания ПО и принимать по мере их выполнения различные решения. Также ИИ проекта не только обучается, но и исправляет допущенные ошибки [3] и ориентируется в контексте.
Согласно пояснению [4]Cognition, основные возможности нейросети Devin включают в себя:
комплексную разработку приложений — создание и развёртывание полнофункциональных веб-приложений, добавление новых опций в проект по мере поступления отзывов от пользователей;
адаптацию к новым технологиям — освоение незнакомых инструментов с помощью чтения документации;
обучение [5] ИИ — установка и настройка больших языковых моделей на основе инструкций из различных открытых репозиториев;
автономное обнаружение ошибок — выявление, исправление и отлаживание проблем в коде. В этом случае Devin выступает полноценным участником в разработке проектов;
умение самостоятельно решать программные задачи по веб-разработке и другим направлениям на различных биржах фриланса, включая Upwork.
Как сообщает [6]The Register со ссылкой на исследователей из Answer.AI, испытания Devin начались хорошо: ИИ успешно перенёс данные из базы данных Notion в Google Таблицы и создал трекер для проверки информации о положениях Юпитера и Сатурна. Но по мере продолжения тестов исследователи столкнулись с проблемами.
«Задачи, которые казались простыми, часто занимали дни, а не часы, и Devin застревал в технических тупиках или создавал слишком сложные, непригодные для использования решения. Ещё более тревожной была тенденция нейросети продвигаться с задачами, у которых на самом деле нет решения».
Так, например, Devin попросили развернуть несколько приложений на платформе Railway. Инструмент не понял, что заданный тип приложений не поддерживается на платформе, и провёл больше дня, пробуя нерабочие подходы и галлюцинируя.
Из 20 задач Devin успешно выполнил только три. Помимо двух уже упомянутых, ИИ смог провести исследование разработки бота для Discord на Python. Три других задачи дали неопределённые результаты, а 14 проектов полностью провалились.
«Больше всего беспокоила наша неспособность предсказать, какие задачи будут выполнены успешно. Даже когда ИИ, казалось бы, одерживал победу, он одновременно терпел неудачу из-за сложных, отнимающих много времени способов. Многообещающая автономная природа инструмента стала обузой: Devin тратил дни на поиски невозможных решений вместо того, чтобы распознать задачи без решения».
Это не первый раз, когда работоспособность Devin ставится под сомнение. В апреле 2024 года пользователи Reddit обратили внимание [7] на несостыковки в описании инструмента и промо-роликах.
Автор: AnnieBronson
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11552
URLs in this post:
[1] представил: https://thetechdeck.hashnode.dev/devin-the-first-ai-software-engineer
[2] Devin: https://www.cognition-labs.com/blog
[3] ошибки: http://www.braintools.ru/article/4192
[4] пояснению : https://habr.com/ru/news/799973/
[5] обучение: http://www.braintools.ru/article/5125
[6] сообщает : https://www.theregister.com/2025/01/23/ai_developer_devin_poor_reviews/
[7] обратили внимание: https://habr.com/ru/companies/bothub/articles/808529/
[8] Источник: https://habr.com/ru/news/876794/?utm_source=habrahabr&utm_medium=rss&utm_campaign=876794
Нажмите здесь для печати.