Introducción
SoundGuard clasifica sonidos ambientales con embeddings de Amazon Nova + k-NN sobre S3 Vectors. Pensado para asistencia de personas con pérdida auditiva.
Qué es SoundGuard
SoundGuard es un clasificador de sonidos ambientales desplegado completamente serverless en AWS. Recibe un clip de audio (≤ 5 MB, ≤ 30 s), lo convierte en un embedding con Amazon Nova Multimodal Embeddings vía Bedrock y busca los k vecinos más cercanos en un índice vectorial alojado en S3 Vectors. El resultado es una predicción explicable: clase, confianza y los clips de referencia que justifican la decisión.
El sistema está pensado como app de accesibilidad para personas con pérdida auditiva: detecta sonidos críticos (sirenas, alarmas, vidrio rompiéndose, llanto de bebé) y los expone con un campo urgency para que la UI dispare alertas visuales.
Este sitio sustituye al antiguo docs-site/ estático. La URL pública del demo del poster apunta aquí.
Por qué importa
- Sin entrenamiento ni GPU. El "modelo" no son pesos: es un índice vectorial. Agregar una clase nueva = subir clips y re-indexar.
- +57 puntos sobre el baseline. XGBoost + MFCCs alcanza 35% de accuracy. k-NN sobre embeddings de Nova alcanza 92.11%.
- CT/CD real. Step Functions detecta nuevos clips, los embebe, evalúa contra fold de referencia y promueve a producción solo si supera el gate del 90%.
- Explicable por construcción. Cada respuesta incluye los 5 vecinos más cercanos con su distancia coseno y filename original.
Recorrido rápido
Quickstart
curl y fetch contra el endpoint público en menos de un minuto.
Demo en vivo
Sube un audio o graba con el micrófono y observa la clasificación en tiempo real.
Referencia de API
Contrato completo de POST /classify y GET /health.
Arquitectura
Diagrama AWS, decisiones técnicas y flujo de datos.
Pipeline CT/CD
Step Functions, evaluación cross-fold y gate de promoción.
Resultados
Comparativa de modelos, grid search de k y métricas.
Stack
| Capa | Servicio |
|---|---|
| Embeddings | Amazon Bedrock — Nova Multimodal Embeddings (1024 dims) |
| Model store | Amazon S3 Vectors (índice coseno) |
| Inferencia | AWS Lambda + API Gateway HTTP API |
| Persistencia | DynamoDB (logs de predicciones) |
| Orquestación | AWS Step Functions (CT pipeline) |
| Tracking | MLflow (experimentos, grid search) |
| Infra | Terraform (IaC, una .tf por servicio) |
| Frontend | Next.js + Fumadocs (este sitio) — demo en HTML/Tailwind/JS vanilla |
| Baseline | XGBoost + librosa MFCCs (comparativa) |