Почему традиционные тесты не отражают реальный потенциал ИИ
Интеллект проявляется повсеместно, но его измерение кажется субъективным. В лучшем случае мы приблизительно оцениваем его с помощью тестов и контрольных заданий. Вспомните вступительные экзамены в колледж: каждый год бесчисленное количество студентов записываются на них, заучивают советы по подготовке к экзаменам и иногда получают идеальные баллы. Означает ли одно число, например 100%, что у тех, кто его получил, одинаковый уровень интеллекта — или что они каким-то образом максимально раскрыли свой интеллект? Конечно, нет. Тесты — это приблизительные, а не точные измерения реальных возможностей кого-либо или чего-либо.
Дебаты по поводу бенчмаркинга ИИ достигли Pokémon
Даже покемоны не защищены от споров о бенчмаркинге искусственного интеллекта. На прошлой неделе пост на X стал вирусным. В нём утверждалось, что последняя модель Google Gemini превзошла флагманскую модель Claude от Anthropic в оригинальной трилогии видеоигр Pokémon. Сообщается, что Gemini достиг Лавандового города на стриме разработчика на Twitch, а Claude застрял на горе Мун в конце февраля.
Я работал в продуктовой команде 7 лет, а потом пришла нейросеть
Эту историю для моего блога рассказал Леонид Шашков и Илья Головко, CPO в крупном финтехе. Еще пару лет назад моя работа продакт-менеджера выглядела как бесконечное жонглирование задачами: исследования пользователей, анализ конкурентов, документация, постановка задач, презентации... И так по кругу. Большую часть времени съедали рутинные задачи, которые требовали механической работы, но не давали простора для творчества. А теперь...
Регулярные выражения для инженеров тестирования: чтение, анализ и применение в тестировании
Всем привет. Сегодня в блоге ЛАНИТ на Хабре мы с вами поговорим про такую важную тему, как регулярные выражения. Что это такое, для чего применяется, чем знание этого инструмента работы с данными может помочь инженеру тестирования и как регулярные выражения устроены.
Большая языковая модель «Авито» обогнала OpenAI и Google в бенчмарке MERA
Большая языковая модель A‑Vibe, разработанная «Авито», заняла первое место среди облегчённых моделей (до 10 млрд параметров) в российском бенчмарке MERA. Модель обошла аналоги от OpenAI, Google и Anthropic, рассказали информационной службе Хабра в пресс‑службе «Авито».Команда «Авито» разработала собственные генеративные модели A‑Vibe и A‑Vision, использовав на старте открытую модель. Open source модель плохо работала с русским языком, потому что данные включали 100 языков, а русский занимал 1%. Из‑за этого модель слабо понимала и генерировала тексты на русском.
Я больше не вижу багов…
Привет! Я — Маша, которая заваривает qaшу (и иногда крепкий кофе, когда глаза уже отказываются фокусироваться на экране). Сегодня хочу поговорить о проблеме, с которой сталкивался, наверное, каждый тестировщик (и не только). В один «прекрасный» день ты садишься проверять фичу или делать регресс, а баги просто перестают быть видны. Ты кликаешь, прогоняешь сценарии, но будто слепнешь — всё кажется рабочим. А потом оказывается, что пропустил очевидный косяк, и по цепочке начинается: чувство вины → стресс → ещё большая усталость → ещё больше ошибок.
Митап ПСБ в Ярославле
Приглашаем на митап, который состоится 26 апреля, в Ярославле в отеле «Соколена» по адресу: ул. Институтская 5/17. Митап будет полезен ИТ-экспертам уровня middle и senior, которым интересно узнать о продуктовой разработке в финтехе. Эксперты ИТ ПСБ – банка из топ-4 – поделятся своим опытом, лучшими практиками и расскажут об особенностях работы в финтехе.Программа: 14.00 -14.30 – Сбор гостей, приветственный кофе-брейк14.30 — 17.10 – доклады:Будущее на горизонте: Как автоматизация бизнес-процессов и разработка цифровых продуктов финтеха позволяют делать первые шаги в мир ИИ
Протестировала 5 систем управления знаниями: делюсь впечатлениями
База знаний — не роскошь, а инфраструктура. В статье расскажу о том, как выбрать систему, которая сохранит экспертность компании и сократит операционные издержки.
Тестирование платформы DeepSeek для проверки гипотез по анализу данных
Привет, Хабр!Мы, ребята из Центра эксплуатации Блока ИТ Страхового Дома ВСК, занимаемся управлением автоматизации ИТ-процессов. И у нас, как у всех —