Большая языковая модель «Авито» обогнала OpenAI и Google в бенчмарке MERA
Большая языковая модель A‑Vibe, разработанная «Авито», заняла первое место среди облегчённых моделей (до 10 млрд параметров) в российском бенчмарке MERA. Модель обошла аналоги от OpenAI, Google и Anthropic, рассказали информационной службе Хабра в пресс‑службе «Авито».Команда «Авито» разработала собственные генеративные модели A‑Vibe и A‑Vision, использовав на старте открытую модель. Open source модель плохо работала с русским языком, потому что данные включали 100 языков, а русский занимал 1%. Из‑за этого модель слабо понимала и генерировала тексты на русском.
Я больше не вижу багов…
Привет! Я — Маша, которая заваривает qaшу (и иногда крепкий кофе, когда глаза уже отказываются фокусироваться на экране). Сегодня хочу поговорить о проблеме, с которой сталкивался, наверное, каждый тестировщик (и не только). В один «прекрасный» день ты садишься проверять фичу или делать регресс, а баги просто перестают быть видны. Ты кликаешь, прогоняешь сценарии, но будто слепнешь — всё кажется рабочим. А потом оказывается, что пропустил очевидный косяк, и по цепочке начинается: чувство вины → стресс → ещё большая усталость → ещё больше ошибок.
Митап ПСБ в Ярославле
Приглашаем на митап, который состоится 26 апреля, в Ярославле в отеле «Соколена» по адресу: ул. Институтская 5/17. Митап будет полезен ИТ-экспертам уровня middle и senior, которым интересно узнать о продуктовой разработке в финтехе. Эксперты ИТ ПСБ – банка из топ-4 – поделятся своим опытом, лучшими практиками и расскажут об особенностях работы в финтехе.Программа: 14.00 -14.30 – Сбор гостей, приветственный кофе-брейк14.30 — 17.10 – доклады:Будущее на горизонте: Как автоматизация бизнес-процессов и разработка цифровых продуктов финтеха позволяют делать первые шаги в мир ИИ
Протестировала 5 систем управления знаниями: делюсь впечатлениями
База знаний — не роскошь, а инфраструктура. В статье расскажу о том, как выбрать систему, которая сохранит экспертность компании и сократит операционные издержки.
Тестирование платформы DeepSeek для проверки гипотез по анализу данных
Привет, Хабр!Мы, ребята из Центра эксплуатации Блока ИТ Страхового Дома ВСК, занимаемся управлением автоматизации ИТ-процессов. И у нас, как у всех —
ИИ учится играть в Super Mario Bros.: какие модели показали лучшие результаты
Думали, что «Pokemon» — сложный тест для ИИ? Одна группа исследователей утверждает, что Super Mario Bros. ещё сложнее.
ИИ-агенты в Альфа-Банке: нейросети создают автотесты без участия человека
В Альфа-Банке мы внедрили ИИ-агентов, которые проектируют, разрабатывают и проверяют автотесты. При этом полностью автономно, как QA-инженеры, но в разы быстрее и точнее. Подобных примеров, когда ИИ разрабатывает автотесты от анализа требований до пул-реквеста, в нашей стране, пожалуй, ещё не было.Что умеют агенты?Анализировать контекст из Jira и Confluence, вычленяя суть задачи.Прогнозировать риски, зависимости и даже «пограничные» сценарии.Генерировать DTO для REST API и превращать ручные сценарии в Java-тесты за минуты.
Self-healing тесты и локальная LLM
В этой статье расскажу о практическом применении больших языковых моделей (LLM) в сочетании с традиционными инструментами автоматизации Python/Selenium для повышения надежности тестов.Статья состоит из следующих разделов:1. Что такое self-healing тесты 2. Hardware конфигурация 3. Software конфигурация 4. Испытываем API локальной LLM 5. Встраиваем в тесты 6. Ограничения 7. ПерспективыЧто такое self-healing тесты