Intégration : Aurora Scraper → Nexus (ingestion par lot)
intégration Aurora Scraper → Nexus (upload batch)
Objectif : permettre à Aurora Scraper d’envoyer des lots de pages (ex. 300–400) vers Nexus, dans un Service et un Workspace choisis par l’utilisateur.
Auth (end-user)
- Le Scraper doit authentifier l’utilisateur final sur Nexus et stocker un JWT (chiffré côté Scraper).
- Ne pas stocker les mots de passe Nexus.
- En cas de 401 : demander à l’utilisateur de se reconnecter.
Choix Service / Workspace
- Charger les services et workspaces autorisés pour l’utilisateur :
GET /api/source-appsGET /api/workspaces?source_app=<service>
Workflow upload + commit (batch)
Pour chaque fichier (1 page = 1 .md) :
- Init upload :
POST /api/ingest/upload/init - Upload objet vers MinIO via presigned POST retourné (fichier
.mdtel quel)
Puis une fois tous les fichiers uploadés :
- Commit batch :
POST /api/ingest/upload/commit_batch - Suivi :
GET /api/ingest/jobs/{job_id}(si exposé)
Métadonnées recommandées
À passer dans items[].source_meta :
source_app(obligatoire) : service Nexus choisiworkspace(optionnel) : workspace Nexus choisiurl(fortement recommandé) : URL d’origine (persistée côté Nexus, utilisée ensuite pour sourcer les runbooks)title: titre pagedataset_id,run_id,project_id(si dispo)
caller_app : le Scraper peut utiliser aurora_scraper (utile pour observabilité/caching côté query).
Préparation “Nexus-ready”
Recommandation : le Scraper prépare une liste keep/drop avant envoi (sans exiger un LLM), ex :
- pages trop courtes
- mentions légales / privacy / search / quiz
- duplicats (hash texte)
Nexus n’exige pas ce filtrage, mais cela améliore fortement la qualité du corpus.
Intégration UI (optionnel)
Si vous configurez NEXT_PUBLIC_AURORA_SCRAPER_URL dans le .env, l’UI Nexus (Admin → Assistant RAG) affiche un bouton “Ouvrir Aurora Scraper” et rappelle la destination d’import recommandée :
source_app=__rag_assistantworkspace=sourcescaller_app=aurora_scraper
Alternative (prod) : vous pouvez aussi configurer l’URL via l’UI Admin → Settings → Assistant (AURORA_SCRAPER_PUBLIC_URL) sans rebuild UI.
Ensuite, Nexus peut curer ce batch (validation humaine) et publier des runbooks dans __rag_assistant/runbooks.