Aurora Nexus
Aurora NexusRéférence technique

Intégration : Aurora Scraper → Nexus (ingestion par lot)

intégration Aurora Scraper → Nexus (upload batch)

Objectif : permettre à Aurora Scraper d’envoyer des lots de pages (ex. 300–400) vers Nexus, dans un Service et un Workspace choisis par l’utilisateur.

Auth (end-user)

  • Le Scraper doit authentifier l’utilisateur final sur Nexus et stocker un JWT (chiffré côté Scraper).
  • Ne pas stocker les mots de passe Nexus.
  • En cas de 401 : demander à l’utilisateur de se reconnecter.

Choix Service / Workspace

  • Charger les services et workspaces autorisés pour l’utilisateur :
    • GET /api/source-apps
    • GET /api/workspaces?source_app=<service>

Workflow upload + commit (batch)

Pour chaque fichier (1 page = 1 .md) :

  1. Init upload : POST /api/ingest/upload/init
  2. Upload objet vers MinIO via presigned POST retourné (fichier .md tel quel)

Puis une fois tous les fichiers uploadés :

  1. Commit batch : POST /api/ingest/upload/commit_batch
  2. Suivi : GET /api/ingest/jobs/{job_id} (si exposé)

Métadonnées recommandées

À passer dans items[].source_meta :

  • source_app (obligatoire) : service Nexus choisi
  • workspace (optionnel) : workspace Nexus choisi
  • url (fortement recommandé) : URL d’origine (persistée côté Nexus, utilisée ensuite pour sourcer les runbooks)
  • title : titre page
  • dataset_id, run_id, project_id (si dispo)

caller_app : le Scraper peut utiliser aurora_scraper (utile pour observabilité/caching côté query).

Préparation “Nexus-ready”

Recommandation : le Scraper prépare une liste keep/drop avant envoi (sans exiger un LLM), ex :

  • pages trop courtes
  • mentions légales / privacy / search / quiz
  • duplicats (hash texte)

Nexus n’exige pas ce filtrage, mais cela améliore fortement la qualité du corpus.

Intégration UI (optionnel)

Si vous configurez NEXT_PUBLIC_AURORA_SCRAPER_URL dans le .env, l’UI Nexus (Admin → Assistant RAG) affiche un bouton “Ouvrir Aurora Scraper” et rappelle la destination d’import recommandée :

  • source_app=__rag_assistant
  • workspace=sources
  • caller_app=aurora_scraper

Alternative (prod) : vous pouvez aussi configurer l’URL via l’UI Admin → Settings → Assistant (AURORA_SCRAPER_PUBLIC_URL) sans rebuild UI.

Ensuite, Nexus peut curer ce batch (validation humaine) et publier des runbooks dans __rag_assistant/runbooks.

On this page