Metode
Slik bygges arbeidsutvalgene
Offentlig Pengespor publiserer ikke automatiske anklager. Siden bygger i stedet et
sporingsverktøy der verifiserte fakta, heuristikk, redaksjonell syntese og senere
modellvurderinger holdes tydelig adskilt.
Prinsipp
Fire lag som ikke skal blandes
- Verifiserte fakta: felt direkte fra offentlige kilder eller eksplisitte joins.
- Heuristikk: forklarbare regler som bygger shortlist, ikke dom.
- Redaksjonell syntese: manuell tolkning og sammenstilling på publiserte sider.
- Inferens eller hypotese: tydelig merket når noe bare er en plausibel tolkning.
V1
Hva som faktisk rangerer i dag
- Dette er et heuristisk arbeidsutvalg, ikke en påstand om feil eller misbruk.
- Beløp og metadata er hentet fra publiserte slicer i repoet.
- Rangering kombinerer beløpsstørrelse med forklarbare signaler om diffushet, overhead, mellomledd, registerkontekst, forsknings-/institusjonskontekst, kulturvedtakskontekst, porteføljekontekst og anskaffelsesopasitet.
- Rader under 100 000 kr er filtrert bort fra kandidatdatasettene.
- Offentlige rapporter brukes som eget dokumentlag når rådata alene ikke gir nok kontrollkontekst.
- Rapportfunn flates nå også ut i en egen kontrollfunn-side for mer operativ journalistisk bruk.
Heuristiske kandidater
16765 LLM-shortlist
150 Tilskudd i shortlist
125 Anskaffelser i shortlist
25 Heuristikk
Første publiserte signaler
- Store beløp prioriteres høyere enn små beløp når alt annet er likt.
- Diffuse ord og administrasjonsspråk får egne signaler, adskilt fra rene overhead-treff.
- Doffin-rader løftes når tekst, rammeavtale-signal og DFØ-konsulentkontekst peker samme vei.
- Månedlige DFØ-uttrekk brukes som statuslag, men januaruttrekk tolkes ikke som full årstrend.
- Doffin notices-api brukes som eget dokumentspor med tidslinje og konkurransedokumentlenker.
- Doffin-resultater brukes også som leverandørspor, men Brreg-koblingen er bevisst konservativ.
- Doffin og TED dedupliseres også til ett anskaffelsesløp for å løfte fram kjente kontrakts- og rammeverdier.
- eInnsyn-treff aggregeres også per anskaffelsesløp for å løfte fram avrop, kontrakt og prisregulering som eget arbeidslag.
- TED brukes som eget åpent EU-lag der HTML- og PDF-sider gir tydeligere vinner- og rammeverdiinformasjon.
- eInnsyn brukes som et smalt journal- og saksmappespor rundt utvalgte statlige anskaffelser.
- eInnsyn brukes også målrettet mot leverandørnavn for å finne avrop, kontrakter og prisreguleringer.
- DFØ-beløp og navngitte leverandørspor aggregeres også til kjøper-leverandør-par for prioritert videre research.
- Anskaffelser.no sine fellesavtaler brukes som eget kontekstlag, ikke som egen kuttkandidattabell.
- Enhetsregisteret brukes som bredt orglag for organisasjonsform, sektor og næringskode.
- Tilskuddsrader løftes når ordlyd eller kontekst gir svake målbarhets- eller avgrensningssignaler.
- Mottakerprofiler samler orgnr-bærende tilskudd på tvers av kilder for å vise samlet eksponering og kildemiks.
Begrensning
Vesentlige svakheter i dagens opplegg
- Heuristikken er enkel og gir både falske positive og falske negative treff.
- Doffin-beløp er estimert kontraktsverdi, ikke faktisk utbetalt beløp.
- Tilskuddsdelen bygger nå på hele standardårsslicen fra tilskudd.no, men publikumsflaten rendrer fortsatt store kilder pragmatisk i bolker.
- Forskningsrådet-rader bruker prosjektbevilgning og prosjektstartår, ikke faktisk utbetalt beløp i samme kalenderår.
- Kulturdirektoratet-rader bruker vedtaksbeløp og kodebaserte ordninger, ikke dokumentert utbetalingstidspunkt.
- Støtteregister-rader bygger på navngitte tildelinger i statsstøtteregisteret og dekker ikke hele tilskuddsuniverset i staten.
- DFØ- og Doffin-koblinger viser kontekst, men ikke full leverandør- eller avropshistorikk.
- Doffin-resultater har ikke komplette vinnernavn for alle saker, og navnematch mot Brreg kan feile.
- TED dekker bare saker som faktisk er sendt dit, og heller ikke TED viser avrop eller faktiske utbetalinger.
- eInnsyn-leverandørtreff kan fortsatt peke på eldre eller delvis relaterte avtaler og må tolkes varsomt.
- Kjøper-leverandør-flaten viser spor og sannsynlige koblinger, ikke bekreftede utbetalinger per kontrakt.
- Tilskudd.no er ennå ikke koblet systematisk mot statsbudsjettkapittel og post.
Modellscoring
Planlagt Codex CLI-opplegg
Neste lag er batch- eller halvbatch-scoring på shortlisten, ikke på hele råuniverset. Det
er både billigere og mer presist enn å sende titusener av rader direkte til modell.
- Promptgrunnlaget ligger i `prompts/kuttkandidater-llm-v2-codex.md`.
- Resultater skal lagres som egne artefakter med modellnavn, dato og promptversjon.
- Rå scorer skal beholdes separat fra lokalt beregnede aggregatscorer.
- Modellscorer skal være et tilleggssignal, aldri erstatte kildedata eller heuristikker.
- Search policy er `conditional`: runneren kan ha søk slått på, men modellen skal bare søke når payloaden ikke er nok alene.
- Dagens shortlist er nå eksplisitt balansert per kildefamilie før senere modellrunder.