- BrainTools - https://www.braintools.ru -
Microsoft [1] представила новый класс высокоэффективных моделей AI, которые обрабатывают текст, изображения и речь одновременно, требуя при этом значительно меньше вычислительной мощности, чем существующие системы. Новые модели Phi-4 [2] , выпущенные сегодня, представляют собой прорыв в разработке малых языковых моделей (SLM), которые предоставляют возможности, ранее зарезервированные для гораздо более крупных систем AI.
Согласно техническому отчету Microsoft, Phi-4-Multimodal [3] , модель с 5,6 миллиардами параметров, и Phi-4-Mini [4] с 3,8 миллиардами параметров превосходят конкурентов аналогичного размера и даже соответствуют или превосходят производительность моделей в два раза большего размера при выполнении некоторых задач [5] .
«Эти модели предназначены для того, чтобы предоставить разработчикам передовые возможности AI», — сказал Вэйчжу Чен, вице-президент по генеративному AI в Microsoft. «Phi-4-multimodal, с его способностью обрабатывать речь, зрение [6] и текст одновременно, открывает новые возможности для создания инновационных и контекстно-зависимых приложений».
Техническое достижение появилось в то время, когда предприятия все чаще ищут модели AI, которые могут работать на стандартном оборудовании или «на периферии [7]» — непосредственно на устройствах, а не в облачных центрах обработки данных — для снижения затрат и задержек при сохранении конфиденциальности данных.
Отличительной чертой Phi-4-Multimodal [8] является его новая технология «смешивания LoRA [9]», позволяющая обрабатывать текст, изображения и речевые входные данные в рамках одной модели.
«Используя смесь LoRA, Phi-4-Multimodal расширяет мультимодальные возможности, минимизируя помехи между модальностями», — говорится в исследовательской статье [10] . «Этот подход обеспечивает бесшовную интеграцию и гарантирует постоянную производительность при выполнении задач, связанных с текстом, изображениями и речью/аудио».
Инновация позволяет модели сохранять свои мощные языковые возможности, одновременно добавляя возможности зрения и распознавания речи без ухудшения производительности, которое часто происходит при адаптации моделей для нескольких типов входных данных.
Модель заняла лидирующие позиции в рейтинге Hugging Face OpenASR [11] с показателем ошибок в словах 6,14%, превзойдя специализированные системы распознавания речи, такие как WhisperV3 [12]. Она также демонстрирует конкурентоспособную производительность в задачах на зрение, таких как математическое и научное обоснование с использованием изображений.
Несмотря на компактный размер, Phi-4-Mini [4] демонстрирует исключительные возможности в текстовых задачах. Microsoft сообщает, что модель «превосходит модели аналогичного размера и находится на одном уровне с моделями в два раза большими» в различных тестах понимания языка.
Особенно примечательна производительность модели в задачах по математике [13] и кодированию. Согласно исследовательской работе [14], «Phi-4-Mini состоит из 32 слоев Transformer с размером скрытого состояния 3072» и включает внимание [15] к групповым запросам для оптимизации использования памяти [16] для генерации длинного контекста.
В математическом тесте GSM-8K [17] Phi-4-Mini показал результат 88,6%, превзойдя большинство моделей с 8 миллиардами параметров, а в тесте MATH он достиг результата 64%, что существенно выше, чем у конкурентов аналогичного размера.
«Для математического бенчмарка модель превосходит модели схожего размера с большим отрывом, иногда более 20 баллов. Она даже превосходит оценки моделей в два раза большего размера», — отмечается в техническом отчете.
Capacity [18], система ответов на основе искусственного интеллекта [19], которая помогает организациям объединять различные наборы данных, уже использует семейство Phi для повышения эффективности и точности своей платформы.
Стив Фредериксон, руководитель отдела продуктов компании Capacity, сказал в своем заявлении [20] : «Из наших первых экспериментов нас действительно впечатлила в Phi его замечательная точность и простота развертывания, даже до настройки. С тех пор мы смогли повысить как точность, так и надежность, сохранив при этом экономическую эффективность и масштабируемость, которые мы ценили с самого начала».
Компания Capacity сообщила об экономии затрат в 4,2 раза по сравнению с конкурирующими рабочими процессами при достижении тех же или лучших качественных результатов для задач предварительной обработки.
В течение многих лет развитие AI было обусловлено единой философией: больше — лучше. Больше параметров, больше моделей, больше вычислительных требований. Но модели Phi-4 от Microsoft бросают вызов этому предположению, доказывая, что мощность — это не только масштаб, но и эффективность.
Phi-4-Multimodal [21] и Phi-4-Mini [22] разработаны не для центров обработки данных технологических гигантов, а для реального мира, где вычислительная мощность ограничена, вопросы конфиденциальности имеют первостепенное значение, а AI должен работать без сбоев без постоянного подключения к облаку. Эти модели небольшие, но они имеют вес. Phi-4-Multimodal объединяет речь, зрение и обработку текста в единую систему, не жертвуя точностью, в то время как Phi-4-Mini обеспечивает производительность математики, кодирования и рассуждений на уровне моделей в два раза большего размера.
Речь идет не только о том, чтобы сделать Ai более эффективным; речь идет о том, чтобы сделать его более доступным. Microsoft позиционировала Phi-4 для широкого внедрения, сделав его доступным через Azure AI Foundry [23], Hugging Face [24] и Nvidia API Catalog [25] . Цель ясна: Ai, который не заперт за дорогим оборудованием или массивной инфраструктурой, а может работать на стандартных устройствах, на границе сетей и в отраслях, где вычислительная мощность ограничена.
Масая Нисимаки, директор японской компании по искусственному интеллекту Headwaters Co., Ltd., видит это влияние своими глазами. «Edge AI демонстрирует выдающуюся производительность даже в средах с нестабильными сетевыми соединениями или там, где конфиденциальность имеет первостепенное значение», — сказал он в заявлении [26]. Это означает, что AI может функционировать на заводах, в больницах, на автономных транспортных средствах — в местах, где требуется интеллект в реальном времени, но где традиционные облачные модели не справляются.
По своей сути Phi-4 представляет собой сдвиг в мышлении [27]. AI — это не просто инструмент для тех, у кого самые большие серверы и самые глубокие карманы. Это возможность, которая, если ее правильно разработать, может работать где угодно и для кого угодно. Самое революционное в Phi-4 — это не то, что он может делать, а то, где он может это делать.
Источник [28]
Автор: dilnaz_04
Источник [29]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12645
URLs in this post:
[1] Microsoft: https://www.microsoft.com/en-us/
[2] модели Phi-4: https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/
[3] Согласно техническому отчету Microsoft, Phi-4-Multimodal: https://ai.azure.com/explore/models/Phi-4-multimodal-instruct/version/1/registry/azureml
[4] Phi-4-Mini: https://ai.azure.com/explore/models/Phi-4-mini-instruct/version/1/registry/azureml
[5] задач: https://arxiv.org/pdf/2412.08905
[6] зрение: http://www.braintools.ru/article/6238
[7] периферии: https://venturebeat.com/ai/cloud-edge-or-on-prem-navigating-the-new-ai-infrastructure-paradigm/
[8] Phi-4-Multimodal: http://ai.azure.com/explore/models/Phi-4-multimodal-instruct/version/1/registry/azureml
[9] смешивания LoRA: https://arxiv.org/abs/2403.03432
[10] исследовательской статье: https://huggingface.co/microsoft/Phi-4-multimodal-instruct/resolve/main/phi_4_mm.tech_report.02252025.pdf?download=true
[11] рейтинге Hugging Face OpenASR: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
[12] WhisperV3: https://huggingface.co/openai/whisper-large-v3
[13] математике: http://www.braintools.ru/article/7620
[14] исследовательской работе: https://huggingface.co/microsoft/Phi-4-multimodal-instruct/blob/main/phi_4_mm.tech_report.02252025.pdf
[15] внимание: http://www.braintools.ru/article/7595
[16] памяти: http://www.braintools.ru/article/4140
[17] математическом тесте GSM-8K: https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k
[18] Capacity: https://capacity.com/
[19] интеллекта: http://www.braintools.ru/article/7605
[20] заявлении: https://techcommunity.microsoft.com/blog/azure-ai-services-blog/capacitys-ai-answer-engine%C2%AE-leveraged-phi-to-deliver-better-results-for-their-cu/4386008
[21] Phi-4-Multimodal: https://aka.ms/phi-4-multimodal/azure
[22] Phi-4-Mini: https://aka.ms/phi-4-mini/azure
[23] Azure AI Foundry: https://learn.microsoft.com/en-us/azure/ai-studio/what-is-ai-studio
[24] Hugging Face: https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4
[25] Nvidia API Catalog: https://build.nvidia.com/explore/discover?&ncid=pa-srch-goog-123437-API-Build-Phrase&_bt=731689344234&_bk=nvidia%20api&_bm=p&_bn=g&_bg=177482303987&gad_source=1&gclid=CjwKCAiAlPu9BhAjEiwA5NDSAytIT7chAioA0QLPwJ1wJ0AjBHPOJoLPrTR1myzfhGwzeym8CnUHXxoC8gcQAvD_BwE
[26] заявлении: http://xn--edge%20ai%20demonstrates%20outstanding%20performance%20even%20in%20environments%20with%20unstable%20network%20connections%20or%20where%20confidentiality%20is%20paramount,-hu34i/
[27] мышлении: http://www.braintools.ru/thinking
[28] Источник: https://venturebeat.com/ai/microsofts-new-phi-4-ai-models-pack-big-performance-in-small-packages/
[29] Источник: https://habr.com/ru/companies/bothub/news/886470/?utm_source=habrahabr&utm_medium=rss&utm_campaign=886470
Нажмите здесь для печати.