Spring AI научился видеть! Показываю, как заставить GPT находить бананы на картинках
Новый перевод от команды Spring АйО расскажет вам о работе с мультимодальностью при работе со Spring AI и о различных вариантах работы с графическими изображениями с использованием искусственного интеллекта.Эта статья научит вас, как создать Spring Boot приложение, которое работает с графикой и текстом, используя мультимодальность в Spring AI. Мультимодальность - это способность понимать и обрабатывать информацию одновременно из разных источников. Это определение охватывает текст, графические изображения, аудиофайлы и другие форматы данных. Исходный код
Google призналась, что демонстрация мультимодальности Gemini — это постановка
6 декабря вместе с семейством моделей Gemini компания Google показала видеоролик, где человек взаимодействует с мультимодальной языковой моделью. На видео пользователь общается голосом, рисует и показывает жесты, а Gemini распознаёт увиденное и всячески развлекает. Как заметили наблюдатели и как позже признала Google, видеоролик преувеличивает технические способности ИИ.