TenderReader Data and Accuracy

Source

Sources publiques indexées et fraîcheur
Source	Total	Fraîcheur
Avis Find a Tender	859	2026-07-21
Avis BOAMP	14149	2026-07-17
Attributions Contracts Finder	4130	2026-07-18

Résultats d'évaluation datés

Corpus: broad-real-public-attachments
Moteur: claude-cli
Modèle: claude-opus-4-8
Généré: 2026-06-15
Portée de mesure: Mesuré sur un snapshot local d'exemples publics réels; la précision production et les dossiers client ne sont pas mesurés.
Dossiers: 12
Champs: 40/50
Précision globale: Non mesurée
Libellés: provisional_pending_human_review
Niveau de preuve: Testé localement; Mesuré localement ou dans les fixtures du dépôt; pas une précision client prouvée.
Libellés humains confirmés: 0
Artefact source: .planning/master-plan/2026-06-14_2032/AI_EVAL_RUN_FINAL.md

Foi des citations: 99.1%; Passages source observés.
Claims non supportés: 0.9%; Sous le seuil public.
Faux négatifs critiques: 45.5%; Dossiers avec champ critique manqué.
Calibration ECE: 0.193; Champs émis observés seulement.
Échec schema: 0.0%; Sorties JSON/schema invalides.

Résultats par classe de champ
Classe	Correct	Précision	Rappel	Barre	Statut
Délais	19/26	84.4%	73.1%	82.4%	Métrique d'échantillon local: atteint le seuil snapshot; production non mesurée
Montants	7/8	93.3%	87.5%	91.3%	Métrique d'échantillon local: atteint le seuil snapshot; production non mesurée
Éligibilité	9/11	69.2%	81.8%	67.2%	Métrique d'échantillon local: atteint le seuil snapshot; production non mesurée
Lots	5/5	100.0%	100.0%	98.0%	Métrique d'échantillon local: atteint le seuil snapshot; production non mesurée

Précision production globale: non mesurée. Répartition langue: pas encore mesurée dans le snapshot réel; les libellés sont provisoires et nécessitent une revue humaine.

True production accuracy is Not measured. These are provisional count-based real-eval field metrics from public tender attachments. Development validation (local Claude CLI, not production): submission-deadline extraction scored 473/473 = 100% on a 560-pack real UK+FR public corpus (95% CI lower bound 0.992, clearing the >=99% deadlines-sacred bar); contract value 96.3%. Production accuracy remains Not measured pending a production provider path.

Provenance

Les avis et attributions viennent de flux publics: Find a Tender, Contracts Finder et BOAMP. Les surfaces produit gardent le nom de la source et les mentions OGL/Etalab.

Méthode d'évaluation

La page lit le snapshot réel versionné dans le dépôt: dossiers publics, métriques par classe, foi des citations, calibration et échecs critiques.

Les libellés restent provisoires. Ce n'est pas une affirmation de précision sur des dossiers clients ou un modèle de production.

Chiffres de précision

Les chiffres ci-dessous viennent du snapshot réel et sont rendus depuis JSON. Les dimensions non mesurées restent affichées comme non mesurées.

Les seuils protègent les régressions mais ne transforment pas les métriques provisoires en garantie de résultat.

Limites de traitement des données

Les dossiers client, analyses, profils et préférences sont conservés pendant que le compte est actif. Les préférences contiennent maintenant un export JSON et une demande de suppression; les justificatifs de facturation peuvent être conservés lorsque la loi l'exige.

Les documents téléversés restent dans l'espace authentifié du compte. Un fournisseur d'extraction configuré peut recevoir les documents uniquement pour le traitement; les métriques publiques ci-dessus viennent de snapshots d'évaluation séparés, pas des dossiers client.

Aucune métrique publique de précision n'est calculée depuis les dossiers client.
La suppression est une demande revue par support, pas une action destructive instantanée.
Aucune certification SOC 2, ISO 27001 ou audit indépendant n'est revendiqué ici.