Исследователи из Орегонского университета представили систему машинного обучения TweetyBERT, способную распознавать и классифицировать пение канареек без предварительной разметки данных человеком. Разработка, результаты которой опубликованы в научном журнале Patterns, позволяет анализировать сложные акустические последовательности с точностью, сопоставимой с экспертными оценками. Этот инструмент открывает новые возможности не только для нейробиологии, но и для долгосрочного экологического мониторинга диких популяций.
В отличие от существующих алгоритмов, требующих ручного этикетирования тысяч фрагментов аудиозаписей, новая модель работает по принципу самообучения. В основе TweetyBERT лежит архитектура BERT, применяемая в обработке естественных языков, однако адаптированная для звуковой среды. Система обучается на скрытых фрагментах аудио, восстанавливая пропущенные части записи и выявляя структурные единицы коммуникации – ноты, слоги и фразы. Временное разрешение модели в десять раз превышает показатели систем, предназначенных для анализа человеческой речи.
Канарейки выбраны учеными в качестве объекта исследования не случайно. Эти птицы способны запоминать и воспроизводить до 40 различных типов слогов, объединяя их в длительные и сложные последовательности. Способность к обучению на протяжении всей жизни делает их подходящей моделью для изучения того, как мозг организует и контролирует сложные поведенческие акты. Модель показала уровень ошибок в 2,5%, что лишь немногим уступает результатам систем, обучавшихся под полным контролем специалистов.
Практическое применение технологии выходит за рамки лабораторных исследований. Тональность и структура песен канареек меняются в зависимости от сезона, отражая процессы нейронной пластичности. TweetyBERT успешно фиксирует эти изменения, что позволяет отслеживать эволюцию вокального репертуара птиц в реальном времени. В перспективе адаптация этого алгоритма для работы в естественной среде позволит экологам оценивать влияние изменения климата и антропогенного шума на коммуникацию диких видов.
По мнению авторов исследования, методика может быть масштабирована для изучения других видов, включая морских млекопитающих. В настоящее время схожие подходы уже тестируются на записях сигналов дельфинов и китов. Это создает базу для масштабного акустического мониторинга биоразнообразия, где искусственный интеллект берет на себя рутинную работу по сортировке сотен часов записей, помогая ученым обнаруживать закономерности там, где раньше это требовало колоссальных трудозатрат.
Несмотря на достигнутые успехи, разработчики отмечают ряд ограничений. Модель обучалась на небольшом объеме данных и требует предварительной очистки записей от посторонних шумов. Эффективность системы в условиях сильного звукового загрязнения естественной среды еще предстоит проверить. Тем не менее TweetyBERT представляет собой важный шаг к созданию инструментов для понимания механизмов взаимодействия животных и их адаптации к меняющемуся миру.