Interpolation - en mer eller mindre kvalificerad gissning

Bild: Mats Söderström

När man vill göra en karta som t ex visar hur P-AL-talet varierar inom ett fält utgår man från ett antal jordprover som tagits på fältet. Man kan ju inte ta prover överallt, utan ofta görs en markkartering där man i snitt bara tar ett prov per hektar. Därefter används någon beräkningsmetod där man så bra som möjligt försöker uppskatta P-AL-talet även på platser mellan jordproven. Detta kallas interpolering. Beräkning av värden på platser utanför det provtagna området benämns extrapolering.

Det finns flera metoder att interpolera mellan mätpunkter men all interpolation bygger på antagandet att proverna är tagna så tätt att det inte varierar alltför mycket mellan provpunkterna. Om variationen är för stor måste man göra en tätare provtagning.

Bildmanipulation: Jonas Tornberg, Chalmers

All interpolation bygger på att det finns ett rumsligt (geografiskt) samband. Det betyder att närliggande punkter är mer lika än punkter som ligger längre från varandra. Finns inget rumsligt samband går det inte att interpolera. Om det är långt emellan provpunkterna är sannolikheten mindre att man hittar rumsliga samband. Den vanliga provtagningen med ett prov/ha kan ibland vara otillräcklig om variationen sker på kortare avstånd än 100 m. Vid gles provtagning krävs dessutom ett stort support (den yta som jordprovet representerar) för att hitta geografiska samband. Annars kommer mycket lokala variationer, som uppfattas som brus, att störa.

Interpolera eller inte interpolera

Rumsliga samband - Morans I

För att kunna bedöma den rumsliga variationen i den data man har kan man använda vissa statistiska metoder innan man påbörjar själva interpolationen. En bra beskrivning av den rumsliga variationen får man genom att använda sig av så kallade semivariogram (se nästa del) men det finns också enklare metoder som ger en fingervisning om det är värt att gå vidare med en interpolering eller inte.

Geary’s c eller Moran’s I är båda test som bygger på att undersöka likheten mellan näraliggande observationer och jämföra dem med skillnader i värden mellan alla observationer. Om skillnaderna är mindre mellan grannpunkter jämfört med mellan alla punkter säger man att data är klustrade och det är då rimligt att gå vidare med interpolation eftersom näraliggande provpunkter är mer lika än provpunkter generellt. Genom att beräkna ett globalt Morans I-index för alla provpunkter och variabler som man avser att göra interpolerade kartor över kan man få en uppfattning om ifall kartan sannolikt ger en bild av den variation som finns. Man utnyttjar det beräknade indexvärdet samt signifikanstest för att göra klassningen. 


               
Vid instabil, till synes slumpmässig variation är det bättre att  redovisa data i punktform och beräkna fältmedelvärden och undvika interpolation. Man kan också förbättra dataunderlaget genom att ta några fler prover där variationen är som störst. Ju färre (glesare) provpunkter man har desto större är risken att variationen lika gärna kan vara slumpmässig, och därmed inte resultera i en vettig karta. I litteraturen föreslås att man bör ha åtminstone 30 observationer för att använda Morans I (Mitchell,  2005).

Det finns även en lokal variant på Morans I som gör det möjligt att på en statistisk grund lokalisera kluster av höga respektive låga värden och även provpunkter som skiljer sig kraftigt från omkringliggande punkter (s.k. spatiala outliers) (Mitchell, 2005). Vid interpolation kan enstaka extremvärden påverka kartans utseende påtagligt. Det kan vara svårt att hantera sådana värden. Det är alltid bra att försöka fastställa orsaken till extrema värden. I vissa fall kan det röra sig om analysfel eller helt enkelt felskrivning.

Rumsliga Samband - Geostatistik

Den rumsliga korrelationen inom ett fält kan beskrivas i ett s.k. semivariogram (ofta används denna term synonymt med termen ”variogram”). Semivarians är variansen mellan två punkter separerade av ett visst avstånd. Detta avstånd kallas lag. I semivariogrammet plottas semivariansen mot detta avstånd. Medelvärdet av semivariansen hos alla par som ligger på ungefär samma avstånd från varandra bildar en punkt i variogrammet. Om ett det finns ett rumsligt samband är variansen större mellan provpunkter som ligger längre bort ifrån varandra. Variansen mellan provpunkter som ligger oändligt nära varandra beror på brus i form av provtagnings- och mätfel eller att det är för glest mellan provpunkterna. Denna varians kallas nugget (C0). Vid ett visst avstånd slutar variansen att öka. Variansen vid detta avstånd kallas sill (C0+C). Avståndet kallas range eller räckvidd. Inom detta avstånd finns ett statistiskt samband mellan provpunkterna.

Exempel på variogram och variogramparametrar

Vid upprättandet av ett variogram utifrån observationer i ett dataset, krävs det ett stort antal observationer för att få ett stabilt variogram. Om variationen sker gradvis är data starkt autokorrelerade och färre prover behövs. Om variationen är stor behövs fler prover. Som riktvärde anges ibland minst 50 observationer (Burrough & McDonnell, 1998), men både fler och färre kan behövas. Punkterna i variogrammet benämns det experimentellt variogrammet. Till det anpassas en modell (i form av en kurva), vilket benämns modellvariogrammet. Vilken modell man ska använda grundar man i första hand på hur modellen passar in på punkterna rent visuellt. I andra hand ser man på vilken modell som ger minsta kvadratsumma på residualerna. Man föredrar oftast en enklare modell framför en mer avancerad.

Interpoleringsmetoder

Varje interpolationsmetod kräver att man specificerar vissa uppgifter, det kan t ex vara att ange ett avstånd (”sökradie” se figuren) som avgör vilka av de omkringliggande provpunkterna som ska tas med i beräkningen eller hur stort  inflytande näraliggande provpunkter ska ha.

Bild: Mats Söderström

Det finns många interpolationsmetoder och det är inte alltid samma metod som ger det bästa karteringsresultatet. Man brukar använda en sorts datorprogram som kallas geografiska informationssystem (GIS) när man skapar kartbilder genom interpolation. I växtodlingsprogram som t ex Dataväxt och Näsgård finns möjlighet till den här typen av datahantering.

Några grundläggande regler:
  • Fler prover ger en bättre interpolerad kartbild.
  • Om inomfältsvariationen är stor så behövs fler prover för lyckad interpolation.
  • Var skeptisk till mycket detaljerade interpolerade kartbilder. De innehåller ofta större fel än mer generella kartbilder

Vanliga interpoleringsmetoder i precisionsodlingssammanhang:

  • Närmaste granne
  • Inverse distance weighing (IDW)
  • Kriging

Närmaste granne

En enkel interpoleringsmetod är att ge varje okänd punkt samma värde som närmaste belägna kända punkt. Om mätpunkterna är oregelbundet spridda innebär detta att fältet kommer delas upp i homogena polygoner av olika storlek och form. Dessa polygoner kallas Thiessenpolygoner. Övergångarna blir skarpa, och det uppskattade värdet i en viss punkt avgörs endast av det värde som uppmätts i den punkt som råkar ligga närmast.



Denna metod är enkel, men i de flesta fall inte den lämpligaste för variabler som förändras gradvis över ytan. Om det gäller kvalitativa data som jordartsklass är det svårt att interpolera, och då kan närmaste granne vara den bästa metoden. Men kvalitativa data används sällan i precisionsodlingssammanhang.



Om antalet provtagningspunkter är litet är det inte meningsfullt att interpolera. Hur många provpunkter som behövs för interpolation är svårt att ange exakt (i princip skulle det räcka med två prover), men om man ska kunna utvärdera datavariationen och den framställda kartan statistiskt behöver man i vissa programvaror ha minst 10 observationer. I de fall man endast har tillgång till ett fåtal prover, men ändå vill ta fram ett kartunderlag som visar variationen inom fält, skulle man kunna tänka sig att använda närmaste granne. Då är det bättre att vid provtagningen i fält sprida ut delsticken över en större yta (så att provet bättre representerar den omkringliggande ytan) (se vidare t ex Söderström, 2003).

Källor:

Söderström, M. 2010. Interpolerade markkartor – några riktlinjer.
Precisionsodling Sverige Teknisk Rapport nr 21

Delin, S. 2000. Hantering av geografiska data inom ett jordbruksfält.
Precisionsodling i Väst Teknisk Rapport 4

Inverse Distance Weighing (IDW)


Kriging


Använda fler variabler

Provtagning och analys är vanligen kostsamt. Många observationer kan krävas om man vill producera tillförlitliga kartor.  Emellertid är det ibland möjligt att utnyttja andra (sekundära) variabler som är korrelerade till variabeln av intresse (den primära), och som är betydligt billigare att samla in eller, vilket är ännu bättre, som redan finns tillgängliga. Om detta är fallet finns interpolationsmetoder i vilka man kan använda en sekundär, tätt provtagen variabel och kombinera dessa data med en mer glest provtagen primär variabel. Det har visats i många undersökningar att detta kan ge säkrare interpolerade värden än vad som annars varit möjligt, men metoderna är ofta något mer tidskrävande och komplicerade att använda (t ex Delin och Söderström 2003).

Exempel på interpoleringsmetoder är:

Cokriging – Vid cokriging styr till viss del observationerna och variogrammet för den sekundära variabeln (covariabeln) interpoleringen.

Regression kriging/ kriging med en trend – Här gör man först en regressionsanalys mellan den primära och den sekundära variabeln. Den geostatistiska analysen och interpoleringen görs sedan på ressidualerna (observationernas avvikelser från regressionslinjen) istället för på rådata.

Man kan också tänka sig att man man använder sig av korrelationen mellan den sekundära och den primära variabeln för att skatta den primära variabeln i de punkter där man bara har den sekundära variabeln och sedan göra en interpolering med både uppmätta och skattade värden.

Sekundära variabler kan t ex vara data från sensormätningar (elektrisk konduktivitet, gammastrålning), satellitbilder, skördekartor eller markanalyser som gjorts tätare än den man är intresserad av (t ex Mg-AL om man vill göra lerhaltskartor). 

Utvärdering

Det är alltid lämpligt att göra någon form av utvärdering av hur bra de interpolerade kartorna blev, s k validering.

Oberoende valideringspunkter
Bäst är det om man har oberoende validerings punkter, dvs provpunkter med analyser som inte använts i interpoleringen men där man kan jämföra det analyserade värdet med värdet i den interpolerade kartan på den platsen.

Korsvalidering
Men oftast har man inte tillgång till oberoende valideringspunkter. Då kan man använda korsvalidering. Korsvalidering betyder att man successivt tar bort en prov och sedan beräknar värdet på den platsen med resterande provpunkter och den valda interpolationsmetoden.

Sambandet mellan uppmätta/analyserade och beräknade värden kan utvärderas med de statistiska måtten RMSEP (medelfelet i  pediktionen) och RPD (standardavvikelsen dividerat med RMSEP). En fördel med RPD-värdet är att det möjliggör jämförelser av hur bra interpolationen fungerar mellan olika variabler. För att kartan ska vara bättre än medelvärdet för fältet ska RPD-värdet vara större än 1,0. RPD-värden större än två är ovanligt för interpolerade markkartor (se t.ex. Delin & Söderström, 2003), och snarare har det i tidigare redovisningar verkat vanligt med värden i storleksordningen 1,3-1,6 vid kartering med 1 prov/ha (Delin & Söderström, 2003; Söderström, 2008)

Lathund/sammanfattning

Kontrollera datavariationen
Undersök graden av autokorrelation, d v s om analysvärdena varierar på sådant sätt att de verkar vara lämpliga att interpolera. Detta kan göras med hjälp av semivariogram eller med Moran’s I-indexet. Om testet indikerar mer eller mindre slumpmässig variation – använd fältmedelvärde och undvik interpolation. Annars välj metod enligt nedan.

Välj metod

Fler än ett prov/ha
Interpolera med kriging om antalet prover är minst 50 (eller om variogrammet ser bra ut), annars avståndsviktning (IDW) med viktningsexponenten 2. Vid färre prov än 10 används närmaste granne eller medelvärde. Lämpligen sprids då delsticken mer vid provtagningen.

Ett prov/ha
Som ovanstående

Ett prov/två ha
Sannolikt för få prover för kriging, använd IDW med exponenten 2. Undersök korrelationen mellan Mg-AL och HCl- eller lerhaltsanalyser (om R > 0,7 räknas HCl- eller lerhalt ut i ej analyserade jordprover med korrelationsekvationen). Sedan görs interpolation enligt ett prov/ha. (Om kartering gjorts med EM38-sensor undersöks korrelation mot konduktivitet istället för Mg-AL.)

Ett prov/tre ha

Använd medelvärde eller interpolera med IDW med exponenten 1. Korrelationssamband enligt ovan kan undersökas.

Färre än ett prov/tre ha
Olämpligt att interpolera, använd medelvärde. Ev. för få prover för en bra korrelationsanalys, annars undersöks det enligt ovan.

Utvärdera interpolationen
Använd korsvalidering för att utvärdera den utförda interpolationen. Beräkna R2, RMSEP och RPD. RPD-värden som är nära 1,0 tyder på att interpolationen inte är bättre än fältmedelvärdet.


Exempel på litteratur

Burrough, P.A. & McDonnell, R.A. 1998. Principles of Geographical Information Systems. Oxford University Press, Oxford, 333 s

Delin, S. 2000. Hantering av geografiska data inom ett jordbruksfält. Precisionsodling i Väst, Teknisk Rapport 4

Delin, S. & Söderström, M. 2003. Potential for improving interpolation of soil data using geostatistics and soil electrical conductivity. ACTA Agric. Scand., Sect. B, Soil and Plant Sci. 2003, vol. 52, no. 4, pp. 127-135

Mitchell, A. 2005. The ESRI guide to GIS analysis. Volume 2: Spatial measurements & statistics. ESRI Press, Redlands, USA. 238 s

de Smith, M. J., Goodchild, M. F. & Longley, P. A. 2007. Geospatial analysis: a comprehensive guide to principles, techniques and software tools. Matador, Leicester, UK. 394 s Även på Internet: http://www.spatialanalysisonline.com/

Söderström, M. 2010. Interpolerade markkartor – några riktlinjer. Precisionsodling Sverige, Teknisk Rapport nr 21

Söderström M., 2003. Systems of soil mapping in precision agriculture. NJF seminar no. 336 "Implementation of Precision Farming in Practical Agriculture", 10-12 June 2002. DIAS report, Plant Production No. 100. pp  17-25

Söderström, M., Gruvaeus, I. och Wijkmark, L., 2008. Gammastrålningsmätning för detaljerad kartering av jordarter inom fält.

Precisionsodling Sverige, POS Teknisk rapport 11. Institutionen för mark och miljö, Sveriges Lantbruksuniversitet. 30 s

Yara AB, 2002. Precisionsskolan. Växtpressen