SGSoundGuard

Introducción

SoundGuard clasifica sonidos ambientales con embeddings de Amazon Nova + k-NN sobre S3 Vectors. Pensado para asistencia de personas con pérdida auditiva.

Qué es SoundGuard

SoundGuard es un clasificador de sonidos ambientales desplegado completamente serverless en AWS. Recibe un clip de audio (≤ 5 MB, ≤ 30 s), lo convierte en un embedding con Amazon Nova Multimodal Embeddings vía Bedrock y busca los k vecinos más cercanos en un índice vectorial alojado en S3 Vectors. El resultado es una predicción explicable: clase, confianza y los clips de referencia que justifican la decisión.

El sistema está pensado como app de accesibilidad para personas con pérdida auditiva: detecta sonidos críticos (sirenas, alarmas, vidrio rompiéndose, llanto de bebé) y los expone con un campo urgency para que la UI dispare alertas visuales.

Este sitio sustituye al antiguo docs-site/ estático. La URL pública del demo del poster apunta aquí.

Por qué importa

  • Sin entrenamiento ni GPU. El "modelo" no son pesos: es un índice vectorial. Agregar una clase nueva = subir clips y re-indexar.
  • +57 puntos sobre el baseline. XGBoost + MFCCs alcanza 35% de accuracy. k-NN sobre embeddings de Nova alcanza 92.11%.
  • CT/CD real. Step Functions detecta nuevos clips, los embebe, evalúa contra fold de referencia y promueve a producción solo si supera el gate del 90%.
  • Explicable por construcción. Cada respuesta incluye los 5 vecinos más cercanos con su distancia coseno y filename original.

Recorrido rápido

Stack

CapaServicio
EmbeddingsAmazon Bedrock — Nova Multimodal Embeddings (1024 dims)
Model storeAmazon S3 Vectors (índice coseno)
InferenciaAWS Lambda + API Gateway HTTP API
PersistenciaDynamoDB (logs de predicciones)
OrquestaciónAWS Step Functions (CT pipeline)
TrackingMLflow (experimentos, grid search)
InfraTerraform (IaC, una .tf por servicio)
FrontendNext.js + Fumadocs (este sitio) — demo en HTML/Tailwind/JS vanilla
BaselineXGBoost + librosa MFCCs (comparativa)

On this page