- BrainTools - https://www.braintools.ru -
Представьте: вы заходите на кухню, лениво потягиваясь после долгого рабочего дня, и говорите:«Я устал, сделай мне кофе». Вместо того чтобы самому включать кофемашину, искать чашку и засыпать кофе, за дело берётся роботизированная рука, оснащённая искусственным интеллектом [1] GPT-4. Она плавно двигается, как опытный бариста, открывает ящик, достаёт нужную кружку, аккуратно зачерпывает молотый кофе, включает кофемашину и заливает воду с точностью до грамма.
Это не кадр из фантастического фильма, а реальность, созданная на базе технологии воплощённых языковых моделей (ELLMER), представленной в исследовании, опубликованном в Nature Machine Intelligence [2].
В основе работы этой системы лежит синергия нескольких технологий:
Языковая модель GPT-4 – анализирует команду пользователя, разбивает её на подзадачи и составляет план действий.
Retrieval-Augmented Generation (RAG) – система, которая извлекает релевантные примеры из базы данных, обеспечивая более точное выполнение задач.
Камеры и датчики – помогают роботу ориентироваться в пространстве, находить чашки, кофемашину и другие предметы.
Силовая обратная связь – позволяет контролировать силу нажатия при открытии ящиков, зачерпывании кофе или наливании жидкости.
В исследовании, опубликованном в Nature Machine Intelligence, учёные протестировали систему ELLMER в различных сценариях, где робот выполнял последовательность сложных манипуляций — от открытия дверцы шкафа до точного наливания кофе и украшения тарелки рисунками.
Робот использует семиступенчатую манипуляционную руку Kinova Gen3, оснащённую:
Силовыми датчиками ATI, фиксирующими сопротивление при взаимодействии с объектами.
Azure Kinect DK Depth Camera, обеспечивающей высокоточное 3D-распознавание объектов.
Моделью DALL-E, которая создаёт контуры изображений для украшения напитков или тарелок.
Платформой ROS, управляющей движением и адаптирующей команды в реальном времени.
Этот подход позволяет роботу выполнять сложные задачи в непредсказуемых условиях, например, корректировать силу хвата при переносе чашки или адаптироваться к неожиданным перемещениям объектов.
Понимание команды – робот анализирует текст и определяет, что требуется пользователю.
Поиск предметов – система обнаруживает чашку, кофемашину и контейнер с молотым кофе.
Приготовление напитка – роботизированная рука зачерпывает кофе, запускает машину и следит за процессом.
Контроль процесса – силовые датчики предотвращают разлив, а камера корректирует действия при случайных изменениях.
Украшение напитка – DALL-E создаёт рисунок, который манипулятор воспроизводит на пенке капучино.
Подача – если робот оснащён манипулятором, он аккуратно подаёт напиток в руки пользователя или ставит его на стол.
Учёные протестировали систему на реальных роботах, выполняющих бытовые задачи. Эксперименты показали, что использование GPT-4 и RAG позволяет роботу:
выполнять сложные команды (например, приготовить кофе и нарисовать узор на тарелке);
адаптироваться к изменениям (если чашка сместилась, робот скорректирует движение);
демонстрировать разумное поведение [3] – например, при отсутствии чашки он сначала её ищет, а не просто выполняет ошибочную команду.
В ближайшие годы такие технологии могут использоваться в: роботизированных кофейнях, где напитки готовят исключительно машины; «Умных» кухнях, где ИИ управляет бытовыми процессами; космосе, где роботы смогут готовить пищу и напитки для астронавтов.
Автор: vladipirogov
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13479
URLs in this post:
[1] интеллектом: http://www.braintools.ru/article/7605
[2] исследовании, опубликованном в Nature Machine Intelligence: https://www.nature.com/articles/s42256-025-01005-x
[3] поведение: http://www.braintools.ru/article/9372
[4] Источник: https://habr.com/ru/news/893746/?utm_source=habrahabr&utm_medium=rss&utm_campaign=893746
Нажмите здесь для печати.