Meer informatie
De functie PEARSON(matrix1;matrix2) retourneert de product-moment correlatiecoëfficiënt van Pearson tussen twee gegevensmatrices.
Syntaxis
De argumenten, matrix1 en matrix2, moeten getallen, namen, matrixconstanten of verwijzingen zijn die getallen bevatten.
PEARSON wordt het meest gebruikt met twee celbereiken die de gegevens bevatten, zoals PEARSON(A1:A100;B1:B100).
Voorbeeld van gebruik
Ga als volgt te werk om een voorbeeld van de functie PEARSON te bekijken:
- Maak een leeg Excel-werkblad en kopieer de volgende tabel.
1 | = 3 + 10^$D$2 | | Macht van 10 om bij de gegevens op te tellen |
2 | = 4 + 10^$D$2 | | 0 |
3 | = 2 + 10^$D$2 | | |
4 | = 5 + 10^$D$2 | | |
5 | =4+10^$D$2 | | |
6 | =7+10^$D$2 | | vöör Excel 2003 |
| | | als D2 = 7,5 |
=PEARSON(A1:A6;B1:B6) | | | 0.702038 |
=CORRELATIE(A1:A6;B1:B6) | | | 0.713772 |
| | | |
| | | als D2 = 8 |
| | | #DEEL/0! |
| | | 0.713772 |
- Selecteer cel A1 in het lege Excel-werkblad en kies Plakken in het menu Bewerken zodat de cellen A1:D13 in het werkblad worden gevuld met de gegevens in de tabel.
- Klik op de knop Plakopties en klik op Aanpassen aan opmaak van bestemming. Terwijl het geplakte bereik nog steeds is geselecteerd, wijst u Kolom aan in het menu Opmaak en klikt u op AutoAanpassen aan selectie.
Opmerking Misschien wilt u de cellen B1:B6 opmaken als Getal met 0 decimalen.
De cellen A1:A6 en B1:B6 bevatten de twee gegevensmatrices die in dit voorbeeld zijn gebruikt om de functie PEARSON en CORRELATIE aan te roepen in de cellen A8 en A9. PEARSON en CORRELATIE berekenen beide de product-moment correlatiecoëfficiënt van Pearson en hun resultaten moeten overeenkomen.
In versies van Excel die ouder zijn dan Excel 2003 kan PEARSON afrondingsfouten vertonen. De werking van PEARSON is verbeterd in Excel 2003. CORRELATIE is altijd al geïmplementeerd met de verbeterde procedure die nu in Excel 2003 wordt gebruikt. Als u PEARSON dus gebruikt voor een versie van Excel die ouder is dan Excel 2003, adviseert Microsoft u in de plaats daarvan de functie CORRELATIE te gebruiken.
In versies van Excel die ouder zijn dan Excel 2003 kunt u met het werkblad in dit artikel een experiment uitvoeren om na te gaan wanneer afrondingsfouten optreden. Als u een constante optelt bij de observaties in B1:B6, mag dat geen invloed hebben op de waarde van PEARSON of CORRELATIE. Als u de waarde in D2 vergroot, wordt een grotere constante opgeteld bij B1:B6. Als D2 kleiner is dan 7, zijn er geen afrondingsfouten in de eerste zes decimalen van PEARSON. Verander nu de waarde van D2 in 7,25, 7,5, 7,75 en 8. De cellen D6:D13 van het werkblad vertonen waarden van PEARSON en CORRELATIE respectievelijk als D2 = 7,5 en als D2 = 8.
CORRELATIE is nog steeds nauwkeurig, maar de afrondingsfouten in PEARSON zijn nu dusdanig ernstig dat delen door nul optreedt wanneer D2 = 8.
In oudere versies van Excel worden in deze gevallen onjuiste antwoorden gegeven omdat de effecten van afrondingsfouten diepgaander zijn met de rekenkundige formule die in deze versies wordt gebruikt. De gevallen in dit experiment mag u echter beschouwen als extreem.
In Excel 2003 mag u geen afwijkende waarden van PEARSON zien als u het experiment uitvoert. De cellen D6:D13 vertonen echter dezelfde afrondingsfouten die u in oudere versies van Excel verkrijgt.
Resultaten in oudere versies van Excel
Als u de twee gegevensmatrices X'en en Y'en noemt, gebruiken oudere versies van Excel een enkelvoudig gegevensverwerkingsproces om de som te berekenen van de kwadraten van Y'en, de som van X'en, de som van Y'en, de som van XY'en en het aantal observaties in elke matrix. Deze hoeveelheden worden vervolgens gecombineerd in de rekenkundige formule in het Help-bestand in oudere versies van Excel.
Resultaten in Excel 2003
In de procedure die in Excel 2003 wordt gehanteerd, wordt een tweevoudig gegevensverwerkingsproces gebruikt. Eerst worden de totalen van de X'en en de Y'en berekend en daarna wordt het aantal observaties in elke matrix bepaald. Op basis daarvan kunnen de gemiddelden van X- en Y-observaties worden berekend. Bij de tweede gegevensverwerking wordt vervolgens het kwadratisch verschil tussen elke X en het X-gemiddelde bepaald. Deze kwadratische verschillen worden opgeteld. Het kwadratisch verschil tussen elke Y en het Y-gemiddelde wordt bepaald en ook deze kwadratische verschillen worden opgeteld. Bovendien worden de producten (X — X-gemiddelde) * (Y — Y-gemiddelde) voor elk paar gegevenspunten berekend, en worden deze opgeteld. Deze drie sommen worden gecombineerd in de formule voor PEARSON. Geen van deze drie sommen wordt beïnvloed door een constante op te tellen bij elke waarde in de Y-matrix (of de X-matrix) omdat dezelfde waarde ook wordt opgeteld bij het Y-gemiddelde (of het X-gemiddelde). In de numerieke voorbeelden worden deze drie sommen zelfs met een hoge macht van 10 in cel D12 niet beïnvloed, en de resultaten van de tweede gegevensverwerking zijn onafhankelijk van de invoer in cel D2. De resultaten in Excel 2003 zijn dus numeriek stabieler.
Conclusies
Een tweevoudige gegevensverwerking garandeert betere numerieke prestaties van PEARSON in Excel 2003 dan de enkelvoudige benadering in oudere versies van Excel. Excel 2003-resultaten zijn nooit minder nauwkeurig dan de resultaten in oudere versies. CORRELATIE heeft dezelfde functionaliteit en is altijd al geïmplementeerd met de benadering die voor PEARSON in Excel 2003 wordt gebruikt. CORRELATIE is daarom een betere keuze voor oudere versies van Excel.
In de meeste praktijkvoorbeelden zult u waarschijnlijk geen verschil merken tussen Excel 2003-resultaten en de resultaten in oudere versies van Excel. De doorsnee-gegevens vertonen niet de ongebruikelijke kenmerken die in dit experiment worden geïllustreerd. Numerieke onstabiliteit treedt in oudere versies van Excel het meest op wanneer gegevens zowel een groot aantal significante cijfers bevatten als weinig variatie tussen de gegevenswaarden.
De procedure die de som van de kwadratische afwijkingen bepaalt ten opzichte van een steekproefgemiddelde door
- het steekproefgemiddelde te bepalen
- elke kwadratische afwijking te berekenen
- en vervolgens de kwadratische afwijkingen op te tellen
is nauwkeuriger dan de alternatieve procedure. (De alternatieve procedure wordt dikwijls de
rekenmachineformule genoemd omdat deze geschikt is voor gebruik op een rekenmachine met een klein aantal gegevenspunten.) De alternatieve procedure bestaat uit:
- Bepaal de som van de kwadraten van alle observaties, de steekproefgrootte en de som van alle observaties.
- Bereken de som van de kwadraten van alle observaties min ((som van alle observaties)^2)/steekproefgrootte).
Er zijn vele andere functies die in Excel 2003 zijn verbeterd door deze laatste enkelvoudige verwerkingsprocedure te vervangen door de tweevoudige procedure die het steekproefgemiddelde in de eerste verwerking bepaalt en vervolgens op basis daarvan de som van de kwadratische afwijkingen berekent in de tweede verwerking.
Een korte lijst van deze functies is VAR, VARP, STDEV, STDEVP, DBVAR, DBVARP, DBSTDEV, DBSTDEVP, VOORSPELLEN, RICHTING, SNIJPUNT, PEARSON, R.KWADRAAT en STAND.FOUT.X. Soortgelijke verbeteringen zijn aangebracht in de drie variantie-analysefuncties in het Analysis ToolPak.
Als u meer informatie wilt over PEARSON, klikt u in het menu
Help op
Microsoft Excel Help, typt u
pearson in het vak
Zoeken naar en klikt u op
Zoekactie starten.