Cali, febrero 17 de 2026. Actualizado: martes, febrero 17, 2026 23:09
Google DeepMind y Google Research presentan Perch 2.0, un modelo de bioacústica entrenado en vocalizaciones terrestres que funciona bien para tareas submarinas sin haber visto audio marino en su entrenamiento
Un modelo de IA entrenado con cantos de aves identifica sonidos de ballenas: cómo Perch 2.0 cruza el aire y el mar
En pocas líneas: un equipo conjunto de Google DeepMind y Google Research describe en un artículo y en una demostración práctica cómo Perch 2.0 —un modelo de bioacústica entrenado principalmente con grabaciones de aves y otros animales terrestres— puede servir para identificar y distinguir vocalizaciones marinas como las de diferentes especies de ballenas y subpoblaciones de orcas.
El trabajo, presentado en el taller de NeurIPS 2025 sobre comunicación no humana, muestra que este modelo puede transferir lo aprendido en la tierra al entorno submarino usando técnicas de “transfer learning” y herramientas de clasificación ligeras.
¿Qué es Perch 2.0 y qué hizo el equipo?
Perch 2.0 es un “foundation model” de bioacústica desarrollado por Google DeepMind y documentado por Lauren Harrell (Google Research).
Un foundation model es un sistema de inteligencia artificial entrenado con grandes cantidades de datos para extraer representaciones generales (llamadas embeddings) que luego sirven como base para tareas específicas sin volver a entrenar todo el modelo desde cero.
Aunque Perch 2.0 se entrenó mayoritariamente con vocalizaciones de aves y animales terrestres, los investigadores probaron si sus embeddings —resúmenes compactos de cada fragmento de audio— podían ayudar a clasificar sonidos marinos. El resultado fue notable: Perch 2.0 quedó entre los mejores modelos al crear clasificadores a partir de pocos ejemplos etiquetados (técnica conocida como “few-shot”).
Cómo funciona la transferencia y por qué importa
Transfer learning (aprendizaje por transferencia) es una forma práctica de reutilizar lo que ya aprendió un modelo. En la práctica, Perch 2.0 convierte cada ventana de audio en un vector de características (embedding). Esos vectores sirven como entrada para un clasificador sencillo —en este caso, una regresión logística— que se entrena con pocas grabaciones por clase (4, 8, 16 o 32 ejemplos).
Eso permite a investigadores crear modelos nuevos con menos tiempo y coste computacional que si entrenaran una red desde cero.
Para medir la eficacia, el equipo usó una prueba llamada “few-shot linear probe” y evaluó la capacidad de los clasificadores resultantes con la métrica AUC_ROC (un número entre 0 y 1 donde valores más altos indican mejor capacidad de distinguir entre clases).
Perch 2.0 fue consistentemente el primero o segundo en rendimiento en los conjuntos de datos marinos probados.
Qué datos y comparaciones usaron
Los ensayos se realizaron sobre tres conjuntos de datos submarinos: NOAA PIPAN (subconjunto anotado del archivo acústico pasivo de la NOAA), ReefSet (ruidos biológicos de arrecifes y clases como peces y delfines) y DCLDE (con etiquetas para especies y ecotipos de orcas).
Perch 2.0 se comparó con otras versiones y modelos disponibles en el repositorio Perch Hoplite: Perch 1.0, SurfPerch y un modelo multispecies para ballenas. También se midió frente a embeddings de proyectos externos como AVES-bird, AVES-bio (Earth Species Project) y BirdNet v2.3 (Cornell). En la mayoría de tareas submarinas Perch 2.0 superó a AVES y estuvo a la par con los mejores modelos.
Visualizar y entender las diferencias
El equipo usa técnicas de visualización (PCA y tSNE) para mostrar cómo los embeddings agrupan sonidos similares. Cuando un modelo es informativo, las grabaciones de cada clase forman “racimos” separados; cuando no lo es, las clases se mezclan.
En las gráficas citadas, Perch 2.0 ofreció separaciones más claras entre ciertos ecotipos de orca que otros modelos entrenados fuera del contexto submarino.
¿Por qué un modelo entrenado con aves funciona con ballenas?
Los autores proponen explicaciones basadas en investigaciones previas: modelos grandes y entrenados con muchos datos tienden a generalizar mejor; la dificultad de distinguir llamadas de aves muy similares obliga al modelo a aprender rasgos acústicos detallados que resultan útiles en otras especies; y los mecanismos biológicos de producción de sonido pueden compartir características entre aves y mamíferos marinos.
Herramientas abiertas y próximos pasos
Los investigadores publicaron un tutorial en Google Colab y facilitan el flujo de trabajo ágil (Perch Hoplite) para que científicos y conservacionistas creen clasificadores personalizados con pocos ejemplos.
El equipo también agradece la colaboración de NOAA y otros colaboradores por las anotaciones usadas.
Nota de Transparencia
Esta nota fue generada 100% con IA. La fuente fue aprobada por Diario Occidente y el contenido final fue revisado por un miembro del equipo de redacción.

🔊 El Resumen de Noticias sobre Inteligencia Artificial e Innovación Tecnológica, aquí 👇🏻

Curaduría editorial
La curaduría y revisión editorial de estas notas está a cargo de Rosa María Agudelo Ayerbe, comunicadora social y periodista, con maestría en Transformación Digital y especialización en Inteligencia Artificial.
Desde su rol como líder del equipo de innovación y transformación digital del Diario Occidente, y a través de la unidad estratégica DO Tech, realiza un seguimiento permanente a las principales novedades en tecnología e inteligencia artificial a nivel global.
Estas notas se apoyan en un agente de investigación basado en inteligencia artificial, diseñado para monitorear semanalmente avances, lanzamientos y debates clave del sector.
El contenido es posteriormente leído, analizado, contextualizado y validado editorialmente antes de su publicación.
Este proceso forma parte del mecanismo de actualización continua que permite interpretar los desarrollos tecnológicos desde una mirada periodística, crítica y comprensible para audiencias no especializadas.

