Dépendance, stochastique. Connexions fonctionnelles et stochastiques Connexion fonctionnelle et dépendance stochastique

Dépendance empirique stochastique

La dépendance entre variables aléatoires est appelée dépendance stochastique. Elle se manifeste par un changement dans la loi de distribution de l'un d'eux (la variable dépendante) lorsque les autres (les arguments) changent.

Dépendance empirique graphiquement stochastique, dans le système de coordonnées variable dépendante - arguments, est un ensemble de points situés de manière aléatoire qui reflète la tendance générale du comportement de la variable dépendante lorsque les arguments changent.

Une dépendance empirique stochastique à l’égard d’un argument est appelée dépendance de paire ; s’il y a plus d’un argument, elle est appelée dépendance multidimensionnelle. Exemple de hammam dépendance linéaire montré sur la fig. 1.()

Riz. 1.

Contrairement à la dépendance fonctionnelle habituelle, dans laquelle les changements de valeur d'un argument (ou de plusieurs arguments) correspondent à un changement d'une variable dépendante déterministe, dans une dépendance stochastique, il y a un changement dans la distribution statistique d'une variable dépendante aléatoire, en particulier , l'espérance mathématique.

Problème de modélisation mathématique (approximation)

La construction de la dépendance stochastique est autrement appelée modélisation mathématique(approximation) ou approximation et consiste à trouver son expression mathématique (formule).

Une formule (fonction) établie empiriquement, qui reflète une relation vraie pas toujours connue, mais objectivement existante et qui correspond à la relation fondamentale, stable et répétitive entre les objets, les phénomènes ou leurs propriétés, est considérée comme un modèle mathématique.

La relation stable des choses et leur véritable dépendance. qu'elle soit modélisée ou non, elle existe objectivement, a une expression mathématique et est considérée comme une loi ou sa conséquence.

Si une loi appropriée ou une conséquence de celle-ci est connue, il est alors naturel de la considérer comme la dépendance analytique souhaitée. Par exemple, la dépendance empirique de la force actuelle je dans le circuit de tension U et résistance à la charge R. découle de la loi d'Ohm :

Malheureusement, la véritable dépendance des variables dans la grande majorité des cas est inconnue a priori, il est donc nécessaire de la détecter, sur la base de considérations générales et de concepts théoriques, c'est-à-dire en construisant un modèle mathématique du modèle en question. Il est pris en compte que les variables données et leurs incréments dans le contexte de fluctuations aléatoires reflètent propriétés mathématiques la vraie dépendance souhaitée (comportement des tangentes, des extrema, des racines, des asymptotes, etc.)

La fonction d'approximation sélectionnée d'une manière ou d'une autre lisse (fait la moyenne) des fluctuations aléatoires des valeurs empiriques initiales de la variable dépendante et, supprimant ainsi la composante aléatoire, est une approximation de la composante régulière et, par conséquent, de la désirait une véritable dépendance.

Le modèle mathématique de la dépendance empirique a des fondements théoriques et signification pratique:

· vous permet d'établir l'adéquation des données expérimentales à l'une ou l'autre loi connue et d'identifier de nouveaux modèles ;

· résout pour la variable dépendante le problème de l'interpolation dans un intervalle donné de valeurs d'argument et de prédiction (extrapolation) en dehors de l'intervalle.

Cependant, malgré le grand intérêt théorique de trouver une formule mathématique pour la dépendance des quantités, en pratique, il suffit souvent de déterminer s'il existe un lien entre elles et quelle est sa force.

La tâche de l'analyse de corrélation

Une méthode pour étudier la relation entre des quantités changeantes est l'analyse de corrélation.

Le concept clé de l'analyse de corrélation qui décrit la relation entre les variables est la corrélation (de l'anglais corrélation - coordination, connexion, relation, relation, interdépendance).

L'analyse de corrélation est utilisée pour détecter la dépendance stochastique et évaluer sa force (signification) par l'ampleur des coefficients de corrélation et du rapport de corrélation.

Si une relation est trouvée entre les variables, alors la corrélation est dite présente ou les variables sont corrélées.

Les indicateurs de proximité de la connexion (coefficient de corrélation, rapport de corrélation) modulo varient de 0 (en l'absence de connexion) à 1 (en cas de dégénérescence de la dépendance stochastique en dépendance fonctionnelle).

Une relation stochastique est considérée comme significative (réelle) si l'estimation absolue du coefficient de corrélation (rapport de corrélation) est significative, c'est-à-dire 2 à 3 supérieure à l'écart type de l'estimation du coefficient.

Notez que dans certains cas, un lien peut être trouvé entre des phénomènes qui ne sont pas liés à des relations de cause à effet évidentes.

Par exemple, pour certaines zones rurales, une relation stochastique directe a été identifiée entre le nombre de cigognes nicheuses et les enfants nés. Le décompte printanier des cigognes permet de prédire combien d'enfants naîtront cette année, mais la dépendance, bien entendu, ne prouve pas la croyance bien connue, et s'explique par des processus parallèles :

· la naissance des enfants est généralement précédée de la formation et de l'établissement de nouvelles familles avec l'établissement maisons rurales et les fermes ;

· L'augmentation des possibilités de nidification attire les oiseaux et augmente leur nombre.

Une telle corrélation entre caractéristiques est appelée fausse corrélation (imaginaire), même si elle peut avoir une signification pratique.

Considérant la dépendance entre caractéristiques, soulignons d'abord la dépendance entre les changements de facteur et les caractéristiques résultantes, lorsqu'une valeur très spécifique de la caractéristique factorielle correspond à de nombreuses valeurs possibles de la caractéristique effective. En d'autres termes, chaque valeur d'une variable correspond à une certaine distribution (conditionnelle) d'une autre variable. Cette dépendance est appelée stochastique. L'émergence du concept de dépendance stochastique est due au fait que la variable dépendante est influencée par un certain nombre de facteurs incontrôlés ou non pris en compte, ainsi qu'au fait que les changements dans les valeurs des variables s'accompagnent inévitablement de certaines erreurs aléatoires. Un exemple de relation stochastique est la dépendance des rendements des cultures agricoles Oui de la masse d'engrais appliqués X. Nous ne pouvons pas prédire avec précision le rendement, car il est influencé par de nombreux facteurs (précipitations, composition du sol, etc.). Cependant, il est évident qu'avec une modification de la masse d'engrais, le rendement changera également.

En statistiques, les valeurs observées des caractéristiques sont étudiées, c'est pourquoi la dépendance stochastique est généralement appelée dépendance statistique.

En raison de l'ambiguïté de la relation statistique entre les valeurs de la caractéristique résultante Y et les valeurs de la caractéristique factorielle X, le schéma de dépendance moyenné sur X est intéressant, c'est-à-dire modèle exprimé par une espérance mathématique conditionnelle M(Y/X = x)(calculé avec une valeur fixe de la caractéristique factorielle X = X). Les dépendances de ce type sont appelées régression, et la fonction ср(х) = M(Y/X = x) - fonction de régression Y sur X ou prévision Y Par X(désignation oui x= f(l)). En même temps, le signe efficace Oui aussi appelé fonction de réponse ou expliqué, sortie, résultante, variable endogène et signe du facteur X - régresseur ou variable explicative, d'entrée, prédictive, prédictive, exogène.

Dans la section 4.7, il a été prouvé que l'espérance mathématique conditionnelle M(Y/X) =ср(х) donne la meilleure prévision de Y à partir de X au sens de la moyenne quadratique, c'est-à-dire MON- f(x)) 2 M(Y-g(x)) 2, où g(x) - toute autre prévision UPOH.

Ainsi, la régression est une relation statistique à sens unique qui établit une correspondance entre les caractéristiques. Selon le nombre de caractéristiques factorielles décrivant le phénomène, il existe hammam Et multiple régression. Par exemple, la régression par paires est une régression entre les coûts de production (caractéristique factorielle X) et le volume de produits fabriqués par l'entreprise (caractéristique résultante Y). La régression multiple est une régression entre la productivité du travail (caractéristique résultante Y) et le niveau de mécanisation des processus de production, les horaires de travail, l'intensité matérielle et les qualifications des travailleurs (caractéristiques factorielles X t, X 2, X 3, X 4).

Ils se distinguent par leur forme linéaire Et non linéaire régression, c'est-à-dire régressions exprimées par des fonctions linéaires et non linéaires.

Par exemple, f(X) = Oh + Kommersant - régression linéaire appariée ; f(X) = axe 2 + + bx + Avec - régression quadratique ; f(X1? X2,..., Xp) = p 0 4- réparer(+ p 2 X 2 + ... + p„X w - régression linéaire multiple.

Le problème de l'identification de la dépendance statistique a deux faces : établir étanchéité (force) de la connexion et définition formes de communication.

Dédié à établir la proximité (force) de la communication analyse de corrélation, dont le but est d'obtenir, sur la base des données statistiques disponibles, des réponses aux questions fondamentales suivantes :

  • comment choisir un compteur de connexion statistique approprié (coefficient de corrélation, rapport de corrélation, coefficient de corrélation de rang, etc.) ;
  • comment tester l'hypothèse selon laquelle la valeur numérique résultante du compteur de relation indique réellement la présence d'une relation statistique.

Détermine la forme de communication analyse de régression. Dans ce cas, le but de l'analyse de régression est de résoudre les problèmes suivants sur la base des données statistiques disponibles :

  • choisir le type de fonction de régression (sélection du modèle) ;
  • trouver des paramètres inconnus de la fonction de régression sélectionnée ;
  • analyse de la qualité de la fonction de régression et vérification de l'adéquation de l'équation aux données empiriques ;
  • prévoir les valeurs inconnues de la caractéristique résultante sur la base de valeurs données des caractéristiques factorielles.

À première vue, il peut sembler que la notion de régression s'apparente à la notion de corrélation, puisque dans les deux cas on parle d'une dépendance statistique entre les caractéristiques étudiées. Cependant, en réalité, il existe des différences significatives entre eux. La régression implique une relation causale lorsqu'un changement dans la valeur moyenne conditionnelle d'une caractéristique effective se produit en raison d'un changement dans les caractéristiques factorielles. La corrélation ne dit rien sur la relation causale entre les caractéristiques, c'est-à-dire s'il existe une corrélation entre X et Y, alors ce fait n'implique pas que les changements de valeurs X déterminer le changement dans la valeur moyenne conditionnelle de Y. La corrélation indique simplement le fait que les changements dans une valeur, en moyenne, sont en corrélation avec les changements dans une autre.

La théorie des probabilités est souvent perçue comme une branche des mathématiques qui traite du « calcul des probabilités ».

Et tout ce calcul se résume en réalité à une formule simple :

« La probabilité de tout événement est égale à la somme des probabilités des événements élémentaires qui y sont inclus" En pratique, cette formule répète le « sortilège » qui nous est familier depuis l'enfance :

« La masse d'un objet est égale à la somme des masses de ses éléments constitutifs».

Nous discuterons ici de faits pas si triviaux issus de la théorie des probabilités. Nous parlerons tout d'abord de dépendant Et indépendantévénements.

Il est important de comprendre que les mêmes termes dans différentes branches des mathématiques peuvent avoir des significations complètement différentes.

Par exemple, quand ils disent que l'aire d'un cercle Sça dépend de son rayon R., alors bien sûr, nous entendons la dépendance fonctionnelle

Les concepts de dépendance et d’indépendance ont une signification complètement différente dans la théorie des probabilités.

Commençons par nous familiariser avec ces concepts avec un exemple simple.

Imaginez que vous menez une expérience de lancer de dés dans cette pièce et que votre collègue dans la pièce voisine lance également une pièce de monnaie. Supposons que vous soyez intéressé par l'événement A – votre collègue obtient un « deux » et l'événement B – votre collègue obtient un « pile ». Bon sens invites : ces événements sont indépendants !

Bien que nous n’ayons pas encore introduit le concept de dépendance/indépendance, il est intuitivement clair que toute définition raisonnable de l’indépendance doit être conçue de manière à ce que ces événements soient définis comme indépendants.

Passons maintenant à une autre expérience. Un dé est lancé, l'événement A est un deux et l'événement B est un nombre impair de points. En supposant que l’os soit symétrique, on peut immédiatement dire que P(A) = 1/6. Imaginez maintenant qu'ils vous disent : « À la suite de l'expérience, l'événement B s'est produit, un nombre impair de points est tombé. Que pouvons-nous maintenant dire de la probabilité de l’événement A ? Il est clair que désormais cette probabilité est devenue nulle.

Le plus important pour nous, c'est qu'elle modifié.

En revenant au premier exemple, on peut dire information le fait que l'événement B se soit produit dans la pièce voisine n'affectera en rien vos idées sur la probabilité de l'événement A. Cette probabilité ne changera pas du fait que vous avez appris quelque chose sur l'événement B.

Nous arrivons à une conclusion naturelle et extrêmement importante :

si l'information indique que l'événement DANS ce qui s'est produit change la probabilité d'un événement UN , puis les événements UN Et DANS doit être considéré comme dépendant, et s'il ne change pas, alors indépendant.

Ces considérations doivent prendre une forme mathématique, la dépendance et l'indépendance des événements doivent être déterminées à l'aide de formules.

Nous partirons de la thèse suivante : « Si A et B sont des événements dépendants, alors l'événement A contient des informations sur l'événement B, et l'événement B contient des informations sur l'événement A. » Comment savoir s’il est contenu ou non ? La réponse à cette question est donnée par théorie information.

De la théorie de l'information, nous n'avons besoin que d'une seule formule qui nous permet de calculer la quantité d'informations mutuelles I(A, B) pour les événements A et B.

Nous ne calculerons pas la quantité d'informations pour divers événements ni ne discuterons de cette formule en détail.

Il est important pour nous que si

alors la quantité d'informations mutuelles entre les événements A et B est égale à zéro - événements A et B indépendant. Si

alors la quantité d'informations mutuelles correspond aux événements A et B dépendant.

Le recours à la notion d'information a ici un caractère auxiliaire et, nous semble-t-il, permet de rendre plus tangibles les notions de dépendance et d'indépendance des événements.

Dans la théorie des probabilités, la dépendance et l’indépendance des événements sont décrites de manière plus formelle.

Tout d'abord, nous avons besoin du concept probabilité conditionnelle.

La probabilité conditionnelle de l'événement A, à condition que l'événement B se soit produit (P(B) ≠0), est appelée valeur P(A|B), calculée par la formule

.

Suivant l’esprit de notre approche pour comprendre la dépendance et l’indépendance des événements, nous pouvons nous attendre à ce que la probabilité conditionnelle ait la propriété suivante : si les événements A et B indépendant , Que

Cela signifie que l'information selon laquelle l'événement B s'est produit n'a aucun effet sur la probabilité de l'événement A.

C'est comme ça !

Si les événements A et B sont indépendants, alors

Pour les événements indépendants A et B nous avons

Et


L'idée fondamentale à laquelle est confronté un chercheur en processus et phénomènes socio-économiques est de comprendre la nature des relations entre les variables économiques. La demande pour un certain produit émergeant sur le marché est considérée comme fonction du prix, le rendement des actifs dépend du degré de risque d'investissement, les dépenses de consommation peuvent être fonction du revenu.
Dans le processus d'analyse statistique et de prévision des phénomènes socio-économiques, il est nécessaire de décrire quantitativement les relations les plus significatives. Pour refléter de manière fiable l'essence et la nature des phénomènes et des processus, les relations de cause à effet doivent être identifiées. La causalité est caractérisée par la séquence temporelle de cause à effet : la cause précède toujours l’effet. Cependant, pour une compréhension correcte, les coïncidences d'événements qui n'ont pas de relation causale doivent être exclues.
De nombreux phénomènes socio-économiques présentent le résultat simultanément et cumulativement causes actives. Dans de tels cas, les raisons principales sont séparées des raisons secondaires, sans importance.
Il existe deux types de phénomènes dépendances : fonctionnelles, ou strictement déterministe, et statistique, ou stochastiquement déterministe. À dépendance fonctionnelle chaque valeur ne fait pas dépendant la variable x correspond uniquement à une valeur très spécifique dépendant variable y. Ce dépendance peut être décrite comme l’égalité y = f(x). Un exemple comme celui-ci dépendances il peut y avoir des lois de la mécanique valables pour chaque unité individuelle de la population sans écarts aléatoires.
Statistique, ou dépendance stochastique, ne se manifeste que par des phénomènes de masse, avec grand nombre unités de la population. À stochastique il n'y a aucune dépendance pour les valeurs données dépendant la variable x peut indiquer un certain nombre de valeurs de y, dispersées aléatoirement dans l'intervalle. Chaque valeur d'argument fixe correspond à une certaine distribution statistique des valeurs de fonction. Cela est dû au fait que dépendant une variable, en plus de la variable sélectionnée x, est également influencée par d'autres facteurs incontrôlables ou non pris en compte, ainsi que par le fait que des erreurs de mesure se superposent. (2, p. 12). Puisque les valeurs dépendant les variables sont soumises à une diffusion aléatoire, elles ne peuvent pas être prédites avec une précision suffisante, mais seulement indiquées avec une certaine probabilité. Valeurs apparaissant dépendant les variables sont des réalisations d’une variable aléatoire.
Unilatéral dépendance stochastique une variable aléatoire parmi une ou plusieurs autres variables aléatoires est considérée comme une régression. Une fonction qui exprime unilatéralement dépendance stochastique, appelée fonction de régression ou simplement régression.
Il y a une différence entre dépendance fonctionnelle et la régression. De plus, la variable x à dépendance fonctionnelle^=f(x) détermine complètement la valeur de la fonction^, la fonction est inversible, c'est-à-dire il existe une fonction inverse x = f(y). La fonction de régression n'a pas cette propriété. Seulement dans le cas extrême où dépendance stochastique entre dans dépendance fonctionnelle, Vous pouvez passer d'une équation de régression à une autre.
La formalisation du type d'équation de régression est inadéquate aux fins liées aux mesures en économie et à l'analyse de certaines formes dépendances entre variables. La solution à ces problèmes devient possible grâce à l'introduction dans les relations économiques stochastique membre:
Lors des études dépendances Il convient de garder à l'esprit que la fonction de régression n'établit que formellement une correspondance entre les variables, alors qu'elles peuvent ne pas être dans une relation de cause à effet. Dans ce cas, de fausses régressions peuvent survenir en raison de coïncidences aléatoires dans les variations de variables qui n'ont pas de signification significative. Par conséquent, une étape obligatoire avant de sélectionner une équation de régression est une analyse qualitative. dépendances entre pas dépendant variable x et dépendant variable y, basée sur des hypothèses préliminaires.

Supposons qu'il soit nécessaire d'étudier la dépendance et que les deux quantités soient mesurées dans les mêmes expériences. Pour ce faire, une série d’expériences est réalisée à différentes significations en essayant de garder les autres conditions expérimentales inchangées.

La mesure de chaque grandeur contient des erreurs aléatoires (nous ne considérerons pas ici les erreurs systématiques) ; par conséquent, ces valeurs sont aléatoires.

La relation naturelle entre variables aléatoires est appelée stochastique. Nous considérerons deux problèmes :

a) établir s'il existe (avec une certaine probabilité) une dépendance ou si la valeur ne dépend pas de ;

b) si la dépendance existe, décrivez-la quantitativement.

La première tâche est appelée analyse de variance, et si une fonction de plusieurs variables est considérée, alors analyse de variance multivariée. La deuxième tâche est appelée analyse de régression. Si les erreurs aléatoires sont importantes, elles peuvent alors masquer la dépendance souhaitée et il peut être difficile de l’identifier.

Ainsi, il suffit de considérer une variable aléatoire dépendant de comme paramètre. L'espérance mathématique de cette valeur dépend du fait que cette dépendance soit celle souhaitée et est appelée loi de régression.

Analyse de variance. Effectuons une petite série de mesures pour chaque valeur et déterminons. Considérons deux manières de traiter ces données, nous permettant de déterminer s'il existe une dépendance significative (c'est-à-dire avec une probabilité de confiance acceptée) de z sur

Dans la première méthode, les normes d'échantillonnage d'une seule mesure sont calculées pour chaque série séparément et pour l'ensemble des mesures :

où est le nombre total de mesures, et

sont les valeurs moyennes, respectivement, pour chaque série et pour l'ensemble des mesures.

Comparons la variance d'un ensemble de mesures avec les variances de séries individuelles. S'il s'avère qu'au niveau de confiance choisi, il est possible de calculer pour tout i, alors il existe une dépendance de z par rapport à.

S'il n'y a pas d'excès fiable, la dépendance ne peut pas être détectée (compte tenu de la précision de l'expérience et de la méthode de traitement adoptée).

Les variances sont comparées à l'aide du test de Fisher (30). Puisque la norme s est déterminée par le nombre total de mesures N, qui est généralement assez grand, vous pouvez presque toujours utiliser les coefficients de Fisher donnés dans le tableau 25.

La deuxième méthode d'analyse consiste à comparer les moyennes de différentes valeurs entre elles. Les valeurs sont aléatoires et indépendantes, et leurs propres normes d'échantillonnage sont égales à

Par conséquent, ils sont comparés selon le schéma de mesures indépendantes décrit au paragraphe 3. Si les différences sont significatives, c'est-à-dire dépassent l'intervalle de confiance, alors le fait de dépendance a été établi ; si les différences entre les 2 sont insignifiantes, alors la dépendance ne peut pas être détectée.

L'analyse multivariée présente certaines fonctionnalités. Il est conseillé de mesurer la valeur aux nœuds d'une grille rectangulaire afin qu'il soit plus pratique d'étudier la dépendance à un argument en fixant un autre argument. Effectuer une série de mesures à chaque nœud d’une grille multidimensionnelle demande trop de main d’œuvre. Il suffit d'effectuer une série de mesures en plusieurs points de la grille pour estimer la dispersion d'une seule mesure ; dans d'autres nœuds, nous pouvons nous limiter à des mesures uniques. L'analyse de variance est réalisée selon la première méthode.

Remarque 1. S'il existe de nombreuses mesures, alors dans les deux méthodes, des mesures individuelles ou des séries peuvent, avec une probabilité notable, s'écarter assez fortement de leur espérance mathématique. Ceci doit être pris en compte lors du choix d'une probabilité de confiance suffisamment proche de 1 (comme cela a été fait pour fixer les limites séparant les erreurs aléatoires tolérées des erreurs grossières).

Analyse de régression. Laissez l'analyse de variance indiquer que la dépendance de z sur est. Comment le quantifier ?

Pour ce faire, nous approchons la dépendance souhaitée avec une fonction. Nous trouvons les valeurs optimales des paramètres à l'aide de la méthode. moindres carrés résoudre le problème

où sont les poids de mesure, sélectionnés en proportion inverse du carré de l'erreur de mesure en un point donné (c'est-à-dire ). Ce problème a été analysé au chapitre II, § 2. Nous nous attarderons ici uniquement sur les caractéristiques causées par la présence d'erreurs aléatoires importantes.

Le type est choisi soit à partir de considérations théoriques sur la nature de la dépendance, soit formellement, en comparant le graphique avec des graphiques de fonctions connues. Si la formule est choisie à partir de considérations théoriques et traduit correctement (du point de vue théorique) les asymptotiques, elle permet généralement non seulement de bien se rapprocher de l'ensemble des données expérimentales, mais également d'extrapoler la dépendance trouvée à d'autres plages de valeurs. Une fonction formellement sélectionnée peut décrire l’expérience de manière satisfaisante, mais se prête rarement à une extrapolation.

Il est plus facile de résoudre le problème (34) s’il s’agit d’un polynôme algébrique. Cependant, un tel choix formel de fonction s’avère rarement satisfaisant. En règle générale, les bonnes formules dépendent de paramètres de manière non linéaire (régression transcendantale). Il est plus pratique de construire une régression transcendantale en sélectionnant un remplacement nivelant des variables de manière à ce que la dépendance soit presque linéaire (voir chapitre II, § 1, paragraphe 8). Il est alors facile de l'approcher par un polynôme algébrique : .

Un changement de nivellement des variables est recherché en utilisant des considérations théoriques et en tenant compte des asymptotiques. Nous supposerons en outre qu'un tel changement a déjà été effectué.

Remarque 2. Lors du passage à de nouvelles variables, le problème de la méthode des moindres carrés (34) prend la forme

où les nouveaux poids sont liés aux relations d'origine

Par conséquent, même si dans la formulation originale (34) toutes les mesures avaient la même précision, les poids des variables de nivellement ne seront pas les mêmes.

Analyse de corrélation. Il est nécessaire de vérifier si le remplacement des variables a été véritablement nivelant, c'est-à-dire si la dépendance est proche du linéaire. Cela peut être fait en calculant le coefficient de corrélation de paire

Il est facile de montrer que la relation est toujours satisfaite

Si la dépendance est strictement linéaire (et ne contient pas d'erreurs aléatoires), alors ou dépend du signe de la pente de la droite. Plus la dépendance est petite, moins elle ressemble à une dépendance linéaire. Par conséquent, si , et que le nombre de mesures N est suffisamment grand, alors les variables de nivellement sont choisies de manière satisfaisante.

De telles conclusions sur la nature de la dépendance basées sur les coefficients de corrélation sont appelées analyse de corrélation.

L'analyse de corrélation ne nécessite pas de prendre une série de mesures en chaque point. Il suffit de faire une mesure en chaque point, mais ensuite de prendre plusieurs points sur la courbe étudiée, ce qui est souvent fait lors d'expériences physiques.

Remarque 3. Il existe des critères de proximité qui permettent d'indiquer si la dépendance est pratiquement linéaire. Nous ne nous y attarderons pas, puisque le choix du degré du polynôme d'approximation sera examiné ci-dessous.

Remarque 4. Le rapport indique l'absence de dépendance linéaire mais ne signifie pas l'absence de toute dépendance. Donc, si sur un segment - alors

Polynôme de degré optimal a. Remplaçons un polynôme de degré approximatif dans le problème (35) :

Ensuite, les valeurs optimales des paramètres satisfont le système équations linéaires (2.43):

et ils ne sont pas difficiles à trouver. Mais comment choisir le degré d’un polynôme ?

Pour répondre à cette question, revenons aux variables d'origine et calculons la variance de la formule d'approximation avec les coefficients trouvés. Une estimation impartiale de cette variance est

Évidemment, à mesure que le degré du polynôme augmente, la dispersion (40) diminuera : plus on prend de coefficients, plus les points expérimentaux pourront être approximés avec précision.