Aproximação de dados experimentais. Método dos mínimos quadrados. Aproximação de uma função usando o método dos mínimos quadrados Aproximação de uma função usando o método dos mínimos quadrados

TRABALHO DO CURSO

Aproximação de função usando o método dos mínimos quadrados


Introdução

aproximação empírica do mathcad

O objetivo do trabalho da unidade curricular é aprofundar conhecimentos em informática, desenvolver e consolidar competências no trabalho com o processador de folhas de cálculo Microsoft Excel e MathCAD. Usá-los para resolver problemas usando um computador de uma área temática relacionada à pesquisa.

Em cada tarefa são formuladas as condições do problema, os dados iniciais, a forma de emissão dos resultados, são indicadas as principais dependências matemáticas para a resolução do problema.

O conceito de aproximação é uma expressão aproximada de qualquer objetos matemáticos(por exemplo, números ou funções) através de outros mais simples, mais convenientes de usar ou simplesmente mais conhecidos. Na pesquisa científica, a aproximação é usada para descrever, analisar, generalizar e uso adicional resultados empíricos.

Como se sabe, pode haver uma conexão exata (funcional) entre quantidades, quando um valor específico corresponde a um valor do argumento, e uma conexão menos precisa (correlação), quando um valor específico do argumento corresponde a um valor aproximado ou um certo conjunto de valores de função, em um grau ou outro próximos uns dos outros. Ao conduzir pesquisa científica Ao processar os resultados de uma observação ou experimento, geralmente é preciso lidar com a segunda opção. Ao estudar as dependências quantitativas de vários indicadores, cujos valores são determinados empiricamente, em regra, existe alguma variabilidade. É parcialmente determinado pela heterogeneidade dos objetos estudados de natureza inanimada e, especialmente, viva, e é parcialmente determinado pelo erro de observação e processamento quantitativo de materiais. O último componente nem sempre pode ser completamente eliminado; só pode ser minimizado através da seleção cuidadosa de um método de pesquisa adequado e de um trabalho cuidadoso.

Especialistas na área de automação de processos tecnológicos e de produção lidam com um grande volume de dados experimentais, para processamento dos quais é utilizado um computador. Os dados iniciais e os resultados dos cálculos obtidos podem ser apresentados em forma tabular por meio de processadores de planilhas (planilhas) e, em particular, Excel. Os cursos de informática permitem ao aluno consolidar e desenvolver competências de trabalho utilizando tecnologias informáticas básicas na resolução de problemas do domínio da actividade profissional - um sistema de álgebra computacional da classe de sistemas de design assistido por computador, centrado na preparação de documentos interactivos com. cálculos e suporte visual, é fácil de usar e aplicar para trabalho em equipe.


1. informações gerais


Muitas vezes, especialmente ao analisar dados empíricos, há necessidade de encontrar explicitamente uma relação funcional entre quantidades xE no, que são obtidos como resultado de medições.

Num estudo analítico da relação entre duas quantidades x e y, é feita uma série de observações e o resultado é uma tabela de valores:


xx1 x1 xeuXnaaa1 sim1 simeuSn

Esta tabela geralmente é obtida como resultado de alguns experimentos nos quais x,(valor independente) é definido pelo experimentador, e sim,obtido como resultado da experiência. Portanto esses valores sim,vamos chamá-los de valores empíricos ou experimentais.

Existe uma relação funcional entre as quantidades xey, mas sua forma analítica geralmente é desconhecida, então surge uma tarefa praticamente importante - encontrar a fórmula empírica


e =f (x; uma 1, um 2,…, sou ), (1)


(Onde um1 , um2 ,…,umeu- parâmetros), cujos valores em x = x,provavelmente diferiria pouco dos valores experimentais e, (eu = 1,2,…, p).

Geralmente indica a classe de funções (por exemplo, um conjunto de funções lineares, de potência, exponenciais, etc.) da qual a função é selecionada f(x), e então os melhores valores dos parâmetros são determinados.

Se substituirmos o original x,então obtemos valores teóricos

STeu=f (xeu; um 1, um 2……umeu) , Onde eu = 1,2,…, n.


Diferenças simeuT- simeu, são chamados de desvios e representam distâncias verticais de pontos Meuao gráfico da função empírica.

De acordo com o método dos mínimos quadrados, os melhores coeficientes um1 , um2 ,…,umeuaqueles para os quais são consideradas a soma dos desvios quadrados da função empírica encontrada dos valores da função fornecidos



será mínimo.

Vamos explicar significado geométrico método dos mínimos quadrados.

Cada par de números ( xeu, simeu) da tabela de origem determina o ponto Meuno avião XOY.Usando a fórmula (1) com significados diferentes coeficientes um1 , um2 ,…,umeuvocê pode construir uma série de curvas que são gráficos da função (1). A tarefa é determinar os coeficientes um1 , um2 ,…,umeude tal forma que a soma dos quadrados das distâncias verticais dos pontos Meu (xeu, simeu) antes do gráfico da função (1) ser o menor (Fig. 1).



A construção de uma fórmula empírica consiste em duas etapas: esclarecer a forma geral desta fórmula e determinar seus melhores parâmetros.

Se a natureza da relação entre essas quantidades x e sim, então o tipo de dependência empírica é arbitrário. É dada preferência a fórmulas simples e com boa precisão. O sucesso da escolha de uma fórmula empírica depende em grande parte do conhecimento do pesquisador na área temática, com o qual ele poderá indicar a classe de funções a partir de considerações teóricas. Ótimo valor possui uma imagem dos dados recebidos em sistemas de coordenadas cartesianas ou especiais (semilogarítmica, logarítmica, etc.). A partir da posição dos pontos, pode-se adivinhar aproximadamente a forma geral da dependência estabelecendo a semelhança entre o gráfico construído e amostras de curvas conhecidas.

Determinando as melhores probabilidades um1 , um2,…, umeuincluídos na fórmula empírica são produzidos por métodos analíticos bem conhecidos.

Para encontrar um conjunto de coeficientes um1 , um2 …..umeu, que entregam o mínimo da função S definida pela fórmula (2), usamos condição necessária extremo de uma função de diversas variáveis ​​​​- igualdade de derivadas parciais a zero.

Como resultado, obtemos um sistema normal para determinação dos coeficientes umeu(eu = 1,2,…, m):



Assim, encontrando os coeficientes umeureduz-se à resolução do sistema (3). Este sistema é simplificado se a fórmula empírica (1) for linear em relação aos parâmetros umeu, então o sistema (3) será linear.


1.1 Dependência linear


A forma específica do sistema (3) depende de qual classe de fórmulas empíricas procuramos a dependência (1). Em caso dependência lineary = uma1 +um2 xo sistema (3) assumirá a forma:


Este sistema linear pode ser resolvido por qualquer método conhecido (método de Gauss, iterações simples, fórmulas de Cramer).


1.2 Dependência quadrática


Em caso de dependência quadrática y = uma1 +um2 x+a3x 2o sistema (3) assumirá a forma:



1.3 Dependência exponencial


Em alguns casos, uma função na qual os coeficientes incertos entram de forma não linear é considerada uma fórmula empírica. Neste caso, às vezes o problema pode ser linearizado, ou seja, reduzir para linear. Essas dependências incluem a dependência exponencial


y = uma1 *ea2x (6)


onde um 1E um 2, coeficientes incertos.

A linearização é alcançada tomando o logaritmo da igualdade (6), após o qual obtemos a relação

ln y = ln uma 1+um 2x (7)


Vamos denotar ln noe dentro umxconsequentemente através tE c, então a dependência (6) pode ser escrita na forma t = uma1 +um2 X, o que nos permite aplicar fórmulas (4) com a substituição um1 sobre cE noeu sobre teu


1.4 Elementos da teoria da correlação


Cronograma restaurado dependência funcionalvocê(x)de acordo com os resultados da medição (x eu, noeu),eu = 1,2, K, nchamada de curva de regressão. Para verificar a concordância da curva de regressão construída com os resultados experimentais, normalmente são introduzidas as seguintes características numéricas: coeficiente de correlação (dependência linear), razão de correlação e coeficiente de determinação. Nesse caso, os resultados costumam ser agrupados e apresentados em forma de tabela de correlação. Cada célula desta tabela mostra os números neuJ - esses pares (x, e), cujos componentes se enquadram nos intervalos de agrupamento apropriados para cada variável. Supondo que os comprimentos dos intervalos de agrupamento (para cada variável) sejam iguais entre si, selecione os centros x eu(respectivamente noeu) desses intervalos e números neuJ- como base para cálculos.

O coeficiente de correlação é uma medida da relação linear entre variáveis ​​aleatórias dependentes: mostra quão bem, em média, uma das variáveis ​​pode ser representada como função linear de outro.

O coeficiente de correlação é calculado usando a fórmula:


onde, e são a média aritmética, respectivamente X E no.

O coeficiente de correlação entre variáveis ​​aleatórias em valor absoluto não ultrapassa 1. Quanto mais próximo |p| para 1, mais próxima será a relação linear entre x e você.

No caso de uma correlação não linear, os valores médios condicionais estão localizados próximos à linha curva. Neste caso, recomenda-se a utilização de um índice de correlação como característica da resistência da ligação, cuja interpretação independe do tipo de dependência em estudo.

A relação de correlação é calculada usando a fórmula:



Onde neu = , nf= , e o numerador caracteriza a dispersão das médias condicionais sim, sobre a média absoluta sim.

Sempre. Igualdade = 0 corresponde a variáveis ​​aleatórias não correlacionadas; = 1 se e somente se houver uma conexão funcional exata entre sim e x. Em caso de dependência linear sim de x, a razão de correlação coincide com o quadrado do coeficiente de correlação. Magnitude - ? 2 é usado como indicador de desvio de regressão linear.

O índice de correlação é uma medida da relação de correlação sim Com x de qualquer forma, mas não pode dar uma ideia do grau de proximidade dos dados empíricos com uma forma especial. Para saber com que precisão a curva construída reflete os dados empíricos, outra característica é introduzida - o coeficiente de determinação.

Para descrevê-lo, considere as seguintes quantidades. - soma total dos quadrados, onde é o valor médio.

Podemos provar a seguinte igualdade

O primeiro termo é igual a Sres = e é chamado de soma residual dos quadrados. Caracteriza o desvio do experimental do teórico.

O segundo termo é igual a Sreg = 2 e é chamado de soma dos quadrados da regressão e caracteriza a dispersão dos dados.

Obviamente, a seguinte igualdade é verdadeira: S completo = S ost + S registro.

O coeficiente de determinismo é determinado pela fórmula:



Quanto menor for a soma residual dos quadrados em comparação com a soma total dos quadrados, maior será o valor do coeficiente de determinismo R2 , que mostra quão bem a equação produzida pela análise de regressão explica as relações entre as variáveis. Se for igual a 1, então existe uma correlação completa com o modelo, ou seja, não há diferença entre os valores reais e estimados de y. No caso oposto, se o coeficiente de determinismo for 0, então a equação de regressão não consegue prever os valores de y

O coeficiente de determinismo sempre não excede a relação de correlação. No caso em que a igualdade é satisfeita R 2 = então podemos assumir que a fórmula empírica construída reflete com mais precisão os dados empíricos.


2. Declaração do problema


1. Usando o método dos mínimos quadrados, aproxime a função dada na tabela

a) um polinômio de primeiro grau;

b) um polinômio de segundo grau;

c) dependência exponencial.

Para cada dependência, calcule o coeficiente de determinismo.

Calcule o coeficiente de correlação (apenas no caso a).

Para cada dependência, desenhe uma linha de tendência.

Usando a função PROJ.LIN, calcule as características numéricas da dependência de.

Compare seus cálculos com os resultados obtidos usando a função PROJ.LIN.

Conclua qual das fórmulas resultantes melhor se aproxima da função.

Escreva um programa em uma das linguagens de programação e compare os resultados dos cálculos com os obtidos acima.


3. Dados iniciais


A função é dada na Figura 1.



4. Cálculo de aproximações no processador de planilhas Excel


Para realizar os cálculos, é aconselhável utilizar o processador de planilhas Microsoft Excel. E organize os dados conforme mostrado na Figura 2.



Para fazer isso, entramos:

· nas células A6:A30 inserimos os valores xi .

· nas células B6:B30 inserimos os valores de уi .

· na célula C6 insira a fórmula =A6^ 2.

· Esta fórmula é copiada para as células C7:C30.

· na célula D6 insira a fórmula =A6*B6.

· Esta fórmula é copiada para as células D7:D30.

· Na célula F6 inserimos a fórmula =A6^4.

· Esta fórmula é copiada para as células F7:F30.

· Na célula G6 inserimos a fórmula =A6^2*B6.

· Esta fórmula é copiada para as células G7:G30.

· Na célula H6, insira a fórmula =LN(B6).

· Esta fórmula é copiada para as células H7:H30.

· na célula I6 insira a fórmula =A6*LN(B6).

· Esta fórmula é copiada para as células I7:I30. Realizamos as próximas etapas usando soma automática

· na célula A33 insira a fórmula =SUM (A6:A30).

· na célula B33 insira a fórmula =SUM (B6:B30).

· na célula C33 insira a fórmula =SUM (C6:C30).

· na célula D33 insira a fórmula =SUM (D6:D30).

· na célula E33 insira a fórmula =SOMA (E6:E30).

· na célula F33 insira a fórmula =SUM (F6:F30).

· Na célula G33, insira a fórmula =SOMA (G6:G30).

· Na célula H33, insira a fórmula =SOMA (H6:H30).

· na célula I33 insira a fórmula =SUM (I6:I30).

Vamos aproximar a função e = f(x) função linear y = uma1 +um2x. Para determinar os coeficientes a 1e um 2Vamos usar o sistema (4). Utilizando os totais da Tabela 2, localizados nas células A33, B33, C33 e D33, escrevemos o sistema (4) na forma



resolvendo o que obtemos um 1= -24,7164 e a2 = 11,63183

Assim, a aproximação linear tem a forma y = -24,7164 + 11,63183x (12)

O sistema (11) foi resolvido utilizando o Microsoft Excel. Os resultados são apresentados na Figura 3:



Na tabela nas células A38:B39 está escrita a fórmula (=MOBR (A35:B36)). As células E38:E39 contêm a fórmula (=MÚLTIPLO (A38:B39, C35:C36)).


A seguir aproximamos a função e = f(x) função quadráticay = uma1 +um2 x+a3 x2. Para determinar os coeficientes a 1, um 2e um 3Vamos usar o sistema (5). Utilizando os totais da Tabela 2, localizados nas células A33, B33, C33, D33, E33, F33 e G33, escrevemos o sistema (5) na forma:



Tendo resolvido isso, obtemos um 1= 1,580946,a 2= -0,60819 e a3 = 0,954171 (14)

Assim, a aproximação quadrática tem a forma:

y = 1,580946 -0,60819x +0,954171x2

O sistema (13) foi resolvido utilizando o Microsoft Excel. Os resultados são apresentados na Figura 4.



Na tabela nas células A46:C48 está escrita a fórmula (=MOBR (A41:C43)). As células F46:F48 contêm a fórmula (=MÚLTIPLO (A41:C43, D46:D48)).

Agora vamos aproximar a função e = f(x) função exponencial y = uma1 ea2x. Para determinar os coeficientes um1 E um2 vamos logaritmar os valores simeue utilizando os totais da Tabela 2, localizados nas células A26, C26, H26 e I26, obtemos o sistema:



Onde с = ln(uma1 ).

Tendo resolvido o sistema (10), encontramos c =0,506435, a2 = 0.409819.

Após a potenciação obtemos a1 = 1,659365.

Assim, a aproximação exponencial tem a forma y = 1,659365*e0,4098194x

O sistema (15) foi resolvido utilizando o Microsoft Excel. Os resultados são apresentados na Figura 5.


Na tabela nas células A55:B56 está escrita a fórmula (=MOBR (A51:B52)). Nas células E54:E56 está escrita a fórmula (=MÚLTIPLO (A51:B52, C51:C52)). A célula E56 contém a fórmula =EXP(E54).

Vamos calcular a média aritmética de xey usando as fórmulas:



Resultados do cálculo x e simusando o Microsoft Excel são apresentados na Figura 6.



A célula B58 contém a fórmula =A33/25. A célula B59 contém a fórmula =B33/25.

Tabela 2


Vamos explicar como a tabela da Figura 7 é compilada.

As células A6:A33 e B6:B33 já estão preenchidas (ver Figura 2).

· na célula J6 insira a fórmula =(A6-$B$58)*(B6-$B$59).

· Esta fórmula é copiada para as células J7:J30.

· na célula K6 insira a fórmula =(A6-$B$58)^ 2.

· Esta fórmula é copiada para as células K7:K30.

· Na célula L6 inserimos a fórmula =(B1-$B$59)^2.

· Esta fórmula é copiada para as células L7:L30.

· na célula M6 inserimos a fórmula =($E$38+$E$39*A6-B6)^2.

· Esta fórmula é copiada para as células M7:M30.

· na célula N6 inserimos a fórmula =($F$46 +$F$47*A6 +$F$48*A6 L6-B6)^2.

· Esta fórmula é copiada para as células N7:N30.

· na célula O6 insira a fórmula =($E$56*EXP ($E$55*A6) - B6)^2.

· Esta fórmula é copiada para as células O7:O30.

Realizamos as próximas etapas usando somatória automática.

· na célula J33 insira a fórmula =CYMM (J6:J30).

· Na célula K33 inserimos a fórmula =SOMA (K6:K30).

· na célula L33 insira a fórmula =CYMM (L6:L30).

· Na célula M33 inserimos a fórmula =SOMA (M6:M30).

· na célula N33 insira a fórmula =SUM (N6:N30).

· na célula O33 insira a fórmula =SUM (06:030).

Agora vamos calcular o coeficiente de correlação usando a fórmula (8) (apenas para aproximação linear) e o coeficiente de determinação usando a fórmula (10). Os resultados dos cálculos utilizando o Microsoft Excel são apresentados na Figura 7.



Na tabela 8, na célula B61 está escrita a fórmula =J33/(K33*L33^(1/2). Na célula B62 está escrita a fórmula =1 - M33/L33. Na célula B63 está escrita a fórmula =1 - N33 /L33. Na célula B64 está escrita a fórmula =1 - O33/L33.

A análise dos resultados do cálculo mostra que a aproximação quadrática descreve melhor os dados experimentais.


4.1 Traçando gráficos no Excel


Selecione as células A1:A25 e vá para o Assistente de Gráfico. Vamos escolher um gráfico de dispersão. Após a construção do gráfico, clique com o botão direito na linha do gráfico e selecione adicionar uma linha de tendência (linear, exponencial, potência e polinômio de segundo grau, respectivamente).

Gráfico de aproximação linear


Gráfico de aproximação quadrática


Gráfico de ajuste exponencial.


5. Aproximação de funções usando MathCAD


A aproximação dos dados tendo em conta os seus parâmetros estatísticos pertence a problemas de regressão. Geralmente surgem durante o processamento de dados experimentais obtidos a partir de medições de processos ou fenômenos físicos de natureza estatística (como medições em radiometria e geofísica nuclear), ou com alto nível de interferência (ruído). A tarefa da análise de regressão é selecionar fórmulas matemáticas que melhor descrevam os dados experimentais.


.1 Regressão linear


A regressão linear no sistema Mathcad é realizada usando vetores de argumento Xe leituras S funções:

interceptar (x, y)- calcula o parâmetro UM1 , deslocamento vertical da linha de regressão (ver figura)

inclinação (x, y)- calcula o parâmetro um2 , inclinação da linha de regressão (ver figura)

y(x) = a1+a2*x


Função correto (y, y(x))calcula Coeficiente de correlação de Pearson.Quanto mais perto ele estiver 1, mais precisamente os dados processados ​​​​correspondem à relação linear (ver figura)

.2 Regressão polinomial


Regressão polinomial univariada com grau arbitrário n polinomial e com coordenadas arbitrárias de amostras no Mathcad é executado pelas funções:

regredir (x, y, n)- calcula o vetor S,que contém os coeficientes aipolinomial nº grau;

Valores de coeficiente aipode ser extraído de um vetor Sfunção submatriz(S, 3, comprimento(S) - 1, 0, 0).

Usamos os valores dos coeficientes obtidos na equação de regressão


y(x) = a1+a2*x+a3*x2 (ver foto)

.3 Regressão não linear


Para fórmulas simples de aproximação padrão, são fornecidas diversas funções de regressão não linear, nas quais os parâmetros da função são selecionados pelo programa Mathcad.

Estes incluem a função expfit (x, y, s),que retorna um vetor contendo os coeficientes a1, a2E a3função exponencial

y(x) = a1 ^exp (a2x) + a3.Vetor V Sos valores iniciais dos coeficientes são inseridos a1, a2E a3primeira aproximação.


Conclusão


A análise dos resultados do cálculo mostra que a aproximação linear descreve melhor os dados experimentais.

Os resultados obtidos no programa MathCAD coincidem totalmente com os valores obtidos no Excel. Isso indica a precisão dos cálculos.


Lista de literatura usada

  1. Ciência da Computação: Livro Didático / Ed. prof. N. V. Makarova. M.: Finanças e Estatística 2007
  2. Informática: Workshop de informática / Ed. Ed. prof. N. V. Makarova. M Finanças e Estatística, 2011.
  3. N.S. Piskunov. Cálculo diferencial e integral, 2010.
  4. Ciência da Computação, Aproximação pelo método dos mínimos quadrados, diretrizes, São Petersburgo, 2009.
Tutoria

Precisa de ajuda para estudar um tópico?

Nossos especialistas irão aconselhar ou fornecer serviços de tutoria sobre temas de seu interesse.
Envie sua inscrição indicando o tema agora mesmo para saber sobre a possibilidade de obter uma consulta.

Método dos mínimos quadrados

Na lição final do tema conheceremos o aplicativo mais famoso FNP, que encontra a mais ampla aplicação em vários campos da ciência e da atividade prática. Pode ser física, química, biologia, economia, sociologia, psicologia e assim por diante. Pela vontade do destino, muitas vezes tenho que lidar com a economia e, portanto, hoje organizarei para vocês uma viagem a um país incrível chamado Econometria=) ...Como você pode não querer?! Lá é muito bom – você só precisa se decidir! ...Mas o que você provavelmente deseja é aprender como resolver problemas método dos mínimos quadrados. E leitores especialmente diligentes aprenderão a resolvê-los não apenas com precisão, mas também MUITO RAPIDAMENTE ;-) Mas primeiro declaração geral do problema + exemplo acompanhante:

Suponhamos que em uma determinada área temática sejam estudados indicadores que tenham expressão quantitativa. Ao mesmo tempo, há todos os motivos para acreditar que o indicador depende do indicador. Esta suposição pode ser uma hipótese científica ou baseada em senso comum. Deixemos, porém, a ciência de lado e exploremos áreas mais apetitosas – nomeadamente, as mercearias. Vamos denotar por:

– área de varejo de uma mercearia, m²,
– faturamento anual de uma mercearia, milhões de rublos.

É absolutamente claro que quanto maior for a área da loja, maior será, na maioria dos casos, o seu volume de negócios.

Suponhamos que depois de realizar observações/experiências/cálculos/danças com pandeiro temos à nossa disposição dados numéricos:

Com as mercearias penso que está tudo claro: - esta é a área da 1ª loja, - o seu volume de negócios anual, - a área da 2ª loja, - o seu volume de negócios anual, etc. A propósito, não é necessário ter acesso a materiais classificados - uma avaliação bastante precisa do volume de negócios pode ser obtida por meio de estatística matemática. Porém, não vamos nos distrair, o curso de espionagem comercial já é pago =)

Os dados tabulares também podem ser escritos na forma de pontos e representados na forma familiar Sistema cartesiano .

Vamos responder a uma pergunta importante: Quantos pontos são necessários para um estudo qualitativo?

Quanto mais, melhor. O conjunto mínimo aceitável consiste em 5-6 pontos. Além disso, quando pequena quantidade dados, resultados “anômalos” não podem ser incluídos na amostra. Assim, por exemplo, uma pequena loja de elite pode ganhar muito mais do que “seus colegas”, distorcendo assim o padrão geral que você precisa encontrar!



Para simplificar, precisamos selecionar uma função, agendar que passa o mais próximo possível dos pontos . Esta função é chamada aproximando (aproximação - aproximação) ou função teórica . De modo geral, um “concorrente” óbvio aparece imediatamente aqui - um polinômio de alto grau, cujo gráfico passa por TODOS os pontos. Mas esta opção é complicada e muitas vezes simplesmente incorreta. (uma vez que o gráfico irá “fazer loop” o tempo todo e refletir mal a tendência principal).

Assim, a função procurada deve ser bastante simples e ao mesmo tempo refletir adequadamente a dependência. Como você pode imaginar, um dos métodos para encontrar tais funções é chamado método dos mínimos quadrados. Primeiro, vejamos sua essência em visão geral. Deixe alguma função aproximar os dados experimentais:


Como avaliar a precisão desta aproximação? Calculemos também as diferenças (desvios) entre os valores experimentais e funcionais (estudamos o desenho). O primeiro pensamento que vem à mente é estimar o tamanho da soma, mas o problema é que as diferenças podem ser negativas (Por exemplo, ) e os desvios resultantes de tal soma anular-se-ão mutuamente. Portanto, como uma estimativa da precisão da aproximação, é necessário considerar a soma módulos desvios:

ou entrou em colapso: (caso alguém não saiba: é o ícone de soma e – uma variável auxiliar “contadora”, que assume valores de 1 a ) .

Ao aproximar pontos experimentais com diversas funções, obteremos significados diferentes, e obviamente, onde esse valor é menor, essa função é mais precisa.

Tal método existe e é chamado método do módulo mínimo. No entanto, na prática, tornou-se muito mais difundido método dos mínimos quadrados, em que possíveis valores negativos são eliminados não pelo módulo, mas pela quadratura dos desvios:



, após o que os esforços são direcionados para selecionar uma função tal que a soma dos desvios quadrados era o menor possível. Na verdade, é daí que vem o nome do método.

E agora estamos voltando para outra coisa ponto importante: conforme observado acima, a função selecionada deve ser bastante simples - mas também existem muitas funções desse tipo: linear , hiperbólico , exponencial , logarítmico , quadrático etc. E, claro, aqui gostaria imediatamente de “reduzir o campo de atividade”. Que classe de funções devo escolher para pesquisa? Primitivo, mas técnica eficaz:

– A maneira mais fácil é representar pontos no desenho e analise sua localização. Se eles tendem a correr em linha reta, você deve procurar equação de uma reta com valores ótimos e . Em outras palavras, a tarefa é encontrar TAIS coeficientes para que a soma dos desvios quadrados seja a menor.

Se os pontos estiverem localizados, por exemplo, ao longo hipérbole, então é obviamente claro que a função linear fornecerá uma aproximação ruim. Neste caso, procuramos os coeficientes mais “favoráveis” para a equação da hipérbole – aqueles que dão a soma mínima dos quadrados .

Agora observe que em ambos os casos estamos falando de funções de duas variáveis, cujos argumentos são parâmetros de dependência pesquisados:

E essencialmente precisamos resolver um problema padrão - encontrar função mínima de duas variáveis.

Vamos lembrar nosso exemplo: suponha que os pontos de “loja” tendem a estar localizados em linha reta e há todos os motivos para acreditar que dependência linear volume de negócios do espaço de varejo. Vamos encontrar TAIS coeficientes “a” e “ser” tais que a soma dos desvios quadrados foi o menor. Tudo está como sempre - primeiro Derivadas parciais de 1ª ordem. De acordo com regra de linearidade Você pode diferenciar logo abaixo do ícone de soma:

Se você quiser usar essas informações para um ensaio ou trabalho de conclusão de curso, ficarei muito grato pelo link na lista de fontes. Você encontrará cálculos detalhados em alguns lugares:

Vamos criar um sistema padrão:

Reduzimos cada equação em “dois” e, além disso, “dividimos” as somas:

Observação : analise de forma independente por que “a” e “be” podem ser retirados além do ícone de soma. Aliás, formalmente isso pode ser feito com a soma

Vamos reescrever o sistema na forma “aplicada”:

após o qual o algoritmo para resolver nosso problema começa a surgir:

Conhecemos as coordenadas dos pontos? Nós sabemos. Valores podemos encontrá-lo? Facilmente. Vamos fazer o mais simples sistema de dois equações lineares com duas incógnitas(“um” e “ser”). Resolvemos o sistema, por exemplo, Método de Cramer, como resultado obtemos um ponto estacionário. Verificando condição suficiente extremo, podemos verificar que neste ponto a função atinge exatamente mínimo. A verificação envolve cálculos adicionais e, portanto, deixaremos isso em segundo plano (se necessário, o quadro ausente pode ser visualizadoAqui ) . Tiramos a conclusão final:

Função da melhor maneira possível (pelo menos em comparação com qualquer outra função linear) aproxima pontos experimentais . Grosso modo, seu gráfico passa o mais próximo possível desses pontos. Na tradição econometria a função de aproximação resultante também é chamada equação de regressão linear pareada .

O problema em consideração tem um grande significado prático. Em nossa situação de exemplo, a Eq. permite que você preveja qual volume de negócios ("Igrek") a loja terá um ou outro valor da área de vendas (um ou outro significado de “x”). Sim, a previsão resultante será apenas uma previsão, mas em muitos casos será bastante precisa.

Analisarei apenas um problema com números “reais”, pois não há dificuldades nele - todos os cálculos estão no nível do currículo escolar do 7º ao 8º ano. Em 95 por cento dos casos, você será solicitado a encontrar apenas uma função linear, mas no final do artigo mostrarei que não é mais difícil encontrar as equações da hipérbole ótima, da exponencial e de algumas outras funções.

Na verdade, resta apenas distribuir as guloseimas prometidas - para que você possa aprender a resolver esses exemplos não apenas com precisão, mas também com rapidez. Estudamos cuidadosamente o padrão:

Tarefa

Como resultado do estudo da relação entre dois indicadores, foram obtidos os seguintes pares de números:

Usando o método dos mínimos quadrados, encontre a função linear que melhor se aproxima da função empírica (experiente) dados. Faça um desenho em que em cartesiano sistema retangular coordenadas, construa pontos experimentais e um gráfico da função de aproximação . Encontre a soma dos desvios quadrados entre os valores empíricos e teóricos. Descubra se o recurso seria melhor (do ponto de vista do método dos mínimos quadrados) aproximar pontos experimentais.

Observe que os significados de “x” são naturais, e isso tem um significado significativo característico, sobre o qual falarei um pouco mais tarde; mas eles, é claro, também podem ser fracionários. Além disso, dependendo do conteúdo de uma tarefa específica, os valores de “X” e “jogo” podem ser total ou parcialmente negativos. Bem, recebemos uma tarefa “sem rosto” e a iniciamos solução:

Encontramos os coeficientes da função ótima como solução do sistema:

Para efeito de registro mais compacto, a variável “contador” pode ser omitida, pois já está claro que a soma é realizada de 1 a .

É mais conveniente calcular os valores necessários em forma tabular:


Os cálculos podem ser feitos em uma microcalculadora, mas é muito melhor usar o Excel - mais rápido e sem erros; assista a um pequeno vídeo:

Assim, obtemos o seguinte sistema:

Aqui você pode multiplicar a segunda equação por 3 e subtraia o 2º da 1ª equação termo por termo. Mas isso é sorte - na prática, os sistemas muitas vezes não são um presente e, nesses casos, economizam Método de Cramer:
, o que significa que o sistema tem uma solução única.

Vamos verificar. Entendo que você não queira, mas por que pular erros onde eles não podem ser perdidos de forma alguma? Vamos substituir a solução encontrada no lado esquerdo de cada equação do sistema:

Os lados direitos das equações correspondentes são obtidos, o que significa que o sistema foi resolvido corretamente.

Assim, a função de aproximação desejada: – de todas as funções linearesÉ ela quem melhor aproxima os dados experimentais.

Diferente direto dependência do faturamento da loja em relação à sua área, a dependência encontrada é reverter (princípio “quanto mais, menos”), e este fato é imediatamente revelado pelo negativo declive . Função nos diz que com um aumento em um determinado indicador em 1 unidade, o valor do indicador dependente diminui em média em 0,65 unidades. Como se costuma dizer, quanto maior o preço do trigo sarraceno, menos ele é vendido.

Para traçar o gráfico da função de aproximação, encontramos seus dois valores:

e execute o desenho:

A linha reta construída é chamada linha de tendência (ou seja, uma linha de tendência linear, ou seja, no caso geral, uma tendência não é necessariamente uma linha reta). Todos conhecem a expressão “estar na moda” e acho que esse termo dispensa comentários adicionais.

Vamos calcular a soma dos desvios quadrados entre valores empíricos e teóricos. Geometricamente, esta é a soma dos quadrados dos comprimentos dos segmentos “framboesa” (dois dos quais são tão pequenos que nem são visíveis).

Vamos resumir os cálculos em uma tabela:


Novamente, eles podem ser feitos manualmente, por precaução, darei um exemplo para o 1º ponto:

mas é muito mais eficaz fazê-lo da forma já conhecida:

Repetimos mais uma vez: Qual é o significado do resultado obtido? De todas as funções lineares função o indicador é o menor, ou seja, em sua família é a melhor aproximação. E aqui, aliás, a questão final do problema não é acidental: e se a função exponencial proposta seria melhor aproximar os pontos experimentais?

Vamos encontrar a soma correspondente dos desvios quadrados - para distinguir, vou denotá-los pela letra “épsilon”. A técnica é exatamente a mesma:


E novamente, por precaução, os cálculos para o 1º ponto:

No Excel usamos a função padrão EXP (a sintaxe pode ser encontrada na Ajuda do Excel).

Conclusão: , o que significa que a função exponencial aproxima os pontos experimentais pior do que uma linha reta .

Mas aqui deve-se notar que “pior” é não significa ainda, o que é ruim. Agora construí um gráfico dessa função exponencial - e ela também passa perto dos pontos - tanto que sem pesquisa analítica fica difícil dizer qual função é mais precisa.

Isto conclui a solução, e volto à questão de valores naturais argumento. Em vários estudos, geralmente económicos ou sociológicos, são utilizados “X” naturais para numerar meses, anos ou outros intervalos de tempo iguais. Considere, por exemplo, o seguinte problema:

Estão disponíveis os seguintes dados sobre o volume de negócios da loja no retalho no primeiro semestre do ano:

Usando o alinhamento linear analítico, determine o volume de faturamento para julho.

Sim, sem problemas: numeramos os meses 1, 2, 3, 4, 5, 6 e usamos o algoritmo usual, como resultado obtemos uma equação - a única coisa é que quando se trata de tempo, eles costumam usar a letra “te” (embora isso não seja crítico). A equação resultante mostra que no primeiro semestre o volume de negócios comercial aumentou em média 27,74 unidades. por mês. Vamos ver a previsão para julho (mês nº 7): d.e.

E existem inúmeras tarefas como esta. Quem desejar pode usufruir de um serviço adicional, nomeadamente o meu Calculadora Excel (versão demo), qual resolve o problema analisado quase instantaneamente! A versão funcional do programa está disponível em troca ou para taxa simbólica.

No final da aula breve informação o encontrar dependências de alguns outros tipos. Na verdade, não há muito o que contar, já que a abordagem fundamental e o algoritmo de solução permanecem os mesmos.

Suponhamos que a disposição dos pontos experimentais se assemelhe a uma hipérbole. Então, para encontrar os coeficientes da melhor hipérbole, você precisa encontrar o mínimo da função - qualquer pessoa pode realizar cálculos detalhados e chegar a um sistema semelhante:

Do ponto de vista técnico formal, é obtido a partir de um sistema “linear” (vamos denotar isso com um asterisco) substituindo "x" por . Bem, e quanto aos valores? calcular, após o que os coeficientes ideais “a” e “be” perto da mão.

Se houver todas as razões para acreditar que os pontos estão localizados ao longo de uma curva logarítmica, então para encontrar os valores ideais encontramos o mínimo da função . Formalmente, no sistema (*) precisa ser substituído por:

Ao realizar cálculos no Excel, use a função LN. Confesso que não seria particularmente difícil para mim criar calculadoras para cada um dos casos em consideração, mas ainda assim seria melhor se você mesmo “programasse” os cálculos. Vídeos de aula para ajudar.

Com a dependência exponencial a situação é um pouco mais complicada. Para reduzir a questão ao caso linear, pegamos a função logaritmo e usamos propriedades do logaritmo:

Agora, comparando a função resultante com a função linear, chegamos à conclusão de que no sistema (*) deve ser substituído por , e – por . Por conveniência, vamos denotar:

Observe que o sistema é resolvido em relação a e e, portanto, após encontrar as raízes, não se deve esquecer de encontrar o próprio coeficiente.

Para aproximar pontos experimentais parábola ideal , deve ser encontrado função mínima de três variáveis . Depois de realizar ações padrão, obtemos o seguinte “funcionamento” sistema:

Sim, claro, aqui há mais quantias, mas não há nenhuma dificuldade na hora de usar seu aplicativo favorito. E por fim, direi como realizar uma verificação rapidamente usando o Excel e construir a linha de tendência desejada: crie um gráfico de dispersão, selecione qualquer um dos pontos com o mouse e clique com o botão direito selecione a opção "Adicionar linha de tendência". A seguir, selecione o tipo de gráfico e na aba "Opções" ative a opção "Mostrar equação no diagrama". OK

Como sempre, gostaria de encerrar o artigo com algumas em uma bela frase, e quase digitei “Esteja na moda!” Mas ele mudou de ideia com o tempo. E não porque seja estereotipado. Não sei como é para ninguém, mas realmente não quero seguir a tendência americana e principalmente europeia promovida =) Portanto, desejo que cada um de vocês siga sua linha!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

O método dos mínimos quadrados é um dos mais comuns e mais desenvolvidos devido à sua simplicidade e eficiência de métodos para estimativa de parâmetros de modelos econométricos lineares. Ao mesmo tempo, ao utilizá-lo, deve-se ter algum cuidado, pois os modelos construídos com ele podem não satisfazer uma série de requisitos de qualidade de seus parâmetros e, como resultado, não refletem “bem” os padrões de desenvolvimento do processo. .

Consideremos com mais detalhes o procedimento para estimar os parâmetros de um modelo econométrico linear usando o método dos mínimos quadrados. Tal modelo em geral pode ser representado pela equação (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t.

Os dados iniciais ao estimar os parâmetros a 0 , a 1 ,..., a n são um vetor de valores da variável dependente sim= (y 1 , y 2 , ... , y T)" e a matriz de valores das variáveis ​​independentes

em que a primeira coluna, composta por uns, corresponde ao coeficiente do modelo.

O método dos mínimos quadrados recebeu esse nome com base no princípio básico de que as estimativas dos parâmetros obtidas em sua base devem satisfazer: a soma dos quadrados do erro do modelo deve ser mínima.

Exemplos de resolução de problemas usando o método dos mínimos quadrados

Exemplo 2.1. A empresa comercial possui uma rede de 12 lojas, cujas informações sobre as atividades são apresentadas na tabela. 2.1.

A direção da empresa gostaria de saber como o tamanho do faturamento anual depende do espaço comercial da loja.

Tabela 2.1

Número da loja Faturamento anual, milhões de rublos. Área comercial, mil m2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Solução de mínimos quadrados. Denotemos o faturamento anual da loja, milhões de rublos; - área comercial da décima loja, mil m2.

Figura 2.1. Gráfico de dispersão para Exemplo 2.1

Para determinar a forma da relação funcional entre as variáveis, construiremos um diagrama de dispersão (Fig. 2.1).

Com base no diagrama de dispersão, podemos concluir que o volume de negócios anual depende positivamente do espaço comercial (ou seja, y aumentará com o aumento de ). Forma mais adequada conexão funcional - linear.

Informações para cálculos adicionais são apresentadas na tabela. 2.2. Usando o método dos mínimos quadrados, estimamos os parâmetros de um modelo econométrico linear de um fator

Tabela 2.2

t e não x 1t sim 2 x1t2 x 1t e t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Média 68,29 0,89

Por isso,

Portanto, com um aumento no espaço comercial em 1 mil m2, mantendo-se outras coisas iguais, o faturamento médio anual aumenta em 67,8871 milhões de rublos.

Exemplo 2.2. A direção da empresa percebeu que o faturamento anual depende não só da área de vendas da loja (ver exemplo 2.1), mas também do número médio de visitantes. As informações relevantes são apresentadas na tabela. 2.3.

Tabela 2.3

Solução. Denotemos - o número médio de visitantes da loja por dia, mil pessoas.

Para determinar a forma da relação funcional entre as variáveis, construiremos um diagrama de dispersão (Fig. 2.2).

Com base no gráfico de dispersão, podemos concluir que o volume de negócios anual depende positivamente do número médio de visitantes por dia (ou seja, y aumentará com o aumento). A forma de dependência funcional é linear.

Arroz. 2.2. Gráfico de dispersão para Exemplo 2.2

Tabela 2.4

t x2t x2t2 yt x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Média 10,65

Em geral, é necessário determinar os parâmetros de um modelo econométrico de dois fatores

y t = a 0 + a 1 x 1t + a 2 x 2t + ε t

As informações necessárias para cálculos posteriores são apresentadas na tabela. 2.4.

Vamos estimar os parâmetros de um modelo econométrico linear de dois fatores usando o método dos mínimos quadrados.

Por isso,

A estimativa do coeficiente =61,6583 mostra que, em igualdade de circunstâncias, com um aumento do espaço comercial em 1 mil m 2, o volume de negócios anual aumentará em média 61,6583 milhões de rublos.

A estimativa do coeficiente = 2,2748 mostra que, em igualdade de circunstâncias, com aumento do número médio de visitantes por 1 mil pessoas. por dia, o faturamento anual aumentará em média 2,2748 milhões de rublos.

Exemplo 2.3. Usando as informações apresentadas na tabela. 2.2 e 2.4, estimar o parâmetro do modelo econométrico unifatorial

onde está o valor centralizado do faturamento anual da loja, milhões de rublos; - valor centralizado do número médio diário de visitantes da t-ésima loja, mil pessoas. (ver exemplos 2.1-2.2).

Solução. Informações adicionais, necessário para os cálculos, é apresentado na tabela. 2.5.

Tabela 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Quantia 48,4344 431,0566

Usando a fórmula (2.35), obtemos

Por isso,

http://www.cleverstudents.ru/articles/mnk.html

Exemplo.

Dados experimentais sobre os valores das variáveis X E no são dados na tabela.

Como resultado de seu alinhamento, a função é obtida

Usando método dos mínimos quadrados, aproxime esses dados por uma dependência linear y = machado + b(encontrar parâmetros UM E b). Descubra qual das duas linhas melhor (no sentido do método dos mínimos quadrados) alinha os dados experimentais. Faça um desenho.

Solução.

Em nosso exemplo n=5. Preenchemos a tabela para facilitar o cálculo dos valores que constam nas fórmulas dos coeficientes exigidos.

Os valores da quarta linha da tabela são obtidos multiplicando os valores da 2ª linha pelos valores da 3ª linha de cada número eu.

Os valores da quinta linha da tabela são obtidos elevando ao quadrado os valores da 2ª linha para cada número eu.

Os valores na última coluna da tabela são as somas dos valores nas linhas.

Usamos as fórmulas do método dos mínimos quadrados para encontrar os coeficientes UM E b. Substituímos neles os valores correspondentes da última coluna da tabela:

Por isso, y = 0,165x+2,184- a linha reta aproximada desejada.

Resta descobrir qual das linhas y = 0,165x+2,184 ou aproxima melhor os dados originais, ou seja, faz uma estimativa pelo método dos mínimos quadrados.

Prova.

Para que quando encontrado UM E b função assumiu menor valor, é necessário que neste ponto a matriz da forma quadrática do diferencial de segunda ordem para a função foi positivo definitivo. Vamos mostrar.

O diferencial de segunda ordem tem a forma:

Aquilo é

Portanto, a matriz de forma quadrática tem a forma

e os valores dos elementos não dependem de UM E b.

Vamos mostrar que a matriz é definida positiva. Para fazer isso, os menores angulares devem ser positivos.

Angular menor de primeira ordem . A desigualdade é estrita, pois os pontos

Que encontra a mais ampla aplicação em vários campos da ciência e da atividade prática. Pode ser física, química, biologia, economia, sociologia, psicologia e assim por diante. Pela vontade do destino, muitas vezes tenho que lidar com a economia e, portanto, hoje organizarei para vocês uma viagem a um país incrível chamado Econometria=) ...Como você pode não querer?! Lá é muito bom – você só precisa se decidir! ...Mas o que você provavelmente deseja é aprender como resolver problemas método dos mínimos quadrados. E leitores especialmente diligentes aprenderão a resolvê-los não apenas com precisão, mas também MUITO RAPIDAMENTE ;-) Mas primeiro declaração geral do problema+ exemplo acompanhante:

Suponhamos que em uma determinada área temática sejam estudados indicadores que tenham expressão quantitativa. Ao mesmo tempo, há todos os motivos para acreditar que o indicador depende do indicador. Essa suposição pode ser uma hipótese científica ou baseada no bom senso básico. Deixemos, porém, a ciência de lado e exploremos áreas mais apetitosas – nomeadamente, as mercearias. Vamos denotar por:

– área de varejo de uma mercearia, m²,
– faturamento anual de uma mercearia, milhões de rublos.

É absolutamente claro que quanto maior for a área da loja, maior será, na maioria dos casos, o seu volume de negócios.

Suponhamos que depois de realizar observações/experiências/cálculos/danças com pandeiro temos à nossa disposição dados numéricos:

Com as mercearias penso que está tudo claro: - esta é a área da 1ª loja, - o seu volume de negócios anual, - a área da 2ª loja, - o seu volume de negócios anual, etc. A propósito, não é necessário ter acesso a materiais classificados - uma avaliação bastante precisa do volume de negócios pode ser obtida por meio de estatística matemática. Porém, não vamos nos distrair, o curso de espionagem comercial já é pago =)

Os dados tabulares também podem ser escritos na forma de pontos e representados na forma familiar Sistema cartesiano .

Vamos responder a uma pergunta importante: Quantos pontos são necessários para um estudo qualitativo?

Quanto mais, melhor. O conjunto mínimo aceitável consiste em 5-6 pontos. Além disso, quando a quantidade de dados é pequena, resultados “anômalos” não podem ser incluídos na amostra. Assim, por exemplo, uma pequena loja de elite pode ganhar muito mais do que “seus colegas”, distorcendo assim o padrão geral que você precisa encontrar!

Para simplificar, precisamos selecionar uma função, agendar que passa o mais próximo possível dos pontos . Esta função é chamada aproximando (aproximação - aproximação) ou função teórica . De modo geral, um “concorrente” óbvio aparece imediatamente aqui - um polinômio de alto grau, cujo gráfico passa por TODOS os pontos. Mas esta opção é complicada e muitas vezes simplesmente incorreta. (uma vez que o gráfico irá “fazer loop” o tempo todo e refletir mal a tendência principal).

Assim, a função procurada deve ser bastante simples e ao mesmo tempo refletir adequadamente a dependência. Como você pode imaginar, um dos métodos para encontrar tais funções é chamado método dos mínimos quadrados. Primeiro, vejamos sua essência em termos gerais. Deixe alguma função aproximar os dados experimentais:


Como avaliar a precisão desta aproximação? Calculemos também as diferenças (desvios) entre os valores experimentais e funcionais (estudamos o desenho). O primeiro pensamento que vem à mente é estimar o tamanho da soma, mas o problema é que as diferenças podem ser negativas (Por exemplo, ) e os desvios resultantes de tal soma anular-se-ão mutuamente. Portanto, como uma estimativa da precisão da aproximação, é necessário considerar a soma módulos desvios:

ou entrou em colapso: (caso alguém não saiba: – este é o ícone de soma, e – uma variável auxiliar – “contador”, que assume valores de 1 a).

Ao aproximar pontos experimentais com funções diferentes obteremos valores diferentes, e obviamente, onde esta soma é menor, aquela função é mais precisa.

Tal método existe e é chamado método do módulo mínimo. No entanto, na prática, tornou-se muito mais difundido método dos mínimos quadrados, em que possíveis valores negativos são eliminados não pelo módulo, mas pela quadratura dos desvios:

, após o que os esforços são direcionados para selecionar uma função tal que a soma dos desvios quadrados era o menor possível. Na verdade, é daí que vem o nome do método.

E agora voltamos a outro ponto importante: conforme observado acima, a função selecionada deve ser bastante simples - mas também existem muitas funções desse tipo: linear , hiperbólico, exponencial, logarítmico, quadrático etc. E, claro, aqui gostaria imediatamente de “reduzir o campo de atividade”. Que classe de funções devo escolher para pesquisa? Uma técnica primitiva, mas eficaz:

– A maneira mais fácil é representar pontos no desenho e analise sua localização. Se eles tendem a correr em linha reta, você deve procurar equação de uma reta com valores ótimos e . Em outras palavras, a tarefa é encontrar TAIS coeficientes para que a soma dos desvios quadrados seja a menor.

Se os pontos estiverem localizados, por exemplo, ao longo hipérbole, então é obviamente claro que a função linear fornecerá uma aproximação ruim. Neste caso, procuramos os coeficientes mais “favoráveis” para a equação da hipérbole – aqueles que dão a soma mínima dos quadrados .

Agora observe que em ambos os casos estamos falando de funções de duas variáveis, cujos argumentos são parâmetros de dependência pesquisados:

E essencialmente precisamos resolver um problema padrão - encontrar função mínima de duas variáveis.

Vamos lembrar nosso exemplo: suponha que os pontos de “loja” tendem a estar localizados em linha reta e há todos os motivos para acreditar que dependência linear volume de negócios do espaço de varejo. Vamos encontrar TAIS coeficientes “a” e “ser” tais que a soma dos desvios quadrados foi o menor. Tudo está como sempre - primeiro Derivadas parciais de 1ª ordem. De acordo com regra de linearidade Você pode diferenciar logo abaixo do ícone de soma:

Se você quiser usar essas informações para um ensaio ou trabalho de conclusão de curso, ficarei muito grato pelo link na lista de fontes. Você encontrará cálculos detalhados em alguns lugares:

Vamos criar um sistema padrão:

Reduzimos cada equação em “dois” e, além disso, “dividimos” as somas:

Observação : analise de forma independente por que “a” e “be” podem ser retirados além do ícone de soma. Aliás, formalmente isso pode ser feito com a soma

Vamos reescrever o sistema na forma “aplicada”:

após o qual o algoritmo para resolver nosso problema começa a surgir:

Conhecemos as coordenadas dos pontos? Nós sabemos. Valores podemos encontrá-lo? Facilmente. Vamos fazer o mais simples sistema de duas equações lineares em duas incógnitas(“um” e “ser”). Resolvemos o sistema, por exemplo, Método de Cramer, como resultado obtemos um ponto estacionário. Verificando condição suficiente para um extremo, podemos verificar que neste ponto a função atinge exatamente mínimo. A verificação envolve cálculos adicionais e, portanto, deixaremos isso em segundo plano (se necessário, o quadro ausente pode ser visualizado). Tiramos a conclusão final:

Função da melhor maneira possível (pelo menos em comparação com qualquer outra função linear) aproxima pontos experimentais . Grosso modo, seu gráfico passa o mais próximo possível desses pontos. Na tradição econometria a função de aproximação resultante também é chamada equação de regressão linear pareada .

O problema em consideração é de grande importância prática. Em nossa situação de exemplo, a Eq. permite que você preveja qual volume de negócios ("Igrek") a loja terá um ou outro valor da área de vendas (um ou outro significado de “x”). Sim, a previsão resultante será apenas uma previsão, mas em muitos casos será bastante precisa.

Analisarei apenas um problema com números “reais”, pois não há dificuldades nele - todos os cálculos estão no nível do currículo escolar do 7º ao 8º ano. Em 95 por cento dos casos, você será solicitado a encontrar apenas uma função linear, mas no final do artigo mostrarei que não é mais difícil encontrar as equações da hipérbole ótima, da exponencial e de algumas outras funções.

Na verdade, resta apenas distribuir as guloseimas prometidas - para que você possa aprender a resolver esses exemplos não apenas com precisão, mas também com rapidez. Estudamos cuidadosamente o padrão:

Tarefa

Como resultado do estudo da relação entre dois indicadores, foram obtidos os seguintes pares de números:

Usando o método dos mínimos quadrados, encontre a função linear que melhor se aproxima da função empírica (experiente) dados. Faça um desenho para construir pontos experimentais e um gráfico da função de aproximação em um sistema de coordenadas retangulares cartesianas . Encontre a soma dos desvios quadrados entre os valores empíricos e teóricos. Descubra se o recurso seria melhor (do ponto de vista do método dos mínimos quadrados) aproximar pontos experimentais.

Observe que os significados de “x” são naturais, e isso tem um significado significativo característico, sobre o qual falarei um pouco mais tarde; mas eles, é claro, também podem ser fracionários. Além disso, dependendo do conteúdo de uma tarefa específica, os valores de “X” e “jogo” podem ser total ou parcialmente negativos. Bem, recebemos uma tarefa “sem rosto” e a iniciamos solução:

Encontramos os coeficientes da função ótima como solução do sistema:

Para efeito de registro mais compacto, a variável “contador” pode ser omitida, pois já está claro que a soma é realizada de 1 a .

É mais conveniente calcular os valores necessários em forma tabular:


Os cálculos podem ser feitos em uma microcalculadora, mas é muito melhor usar o Excel - mais rápido e sem erros; assista a um pequeno vídeo:

Assim, obtemos o seguinte sistema:

Aqui você pode multiplicar a segunda equação por 3 e subtraia o 2º da 1ª equação termo por termo. Mas isso é sorte - na prática, os sistemas muitas vezes não são um presente e, nesses casos, economizam Método de Cramer:
, o que significa que o sistema tem uma solução única.

Vamos verificar. Entendo que você não queira, mas por que pular erros onde eles não podem ser perdidos de forma alguma? Vamos substituir a solução encontrada no lado esquerdo de cada equação do sistema:

Os lados direitos das equações correspondentes são obtidos, o que significa que o sistema foi resolvido corretamente.

Assim, a função de aproximação desejada: – de todas as funções linearesÉ ela quem melhor aproxima os dados experimentais.

Diferente direto dependência do faturamento da loja em relação à sua área, a dependência encontrada é reverter (princípio “quanto mais, menos”), e este fato é imediatamente revelado pelo negativo declive. Função nos diz que com um aumento em um determinado indicador em 1 unidade, o valor do indicador dependente diminui em média em 0,65 unidades. Como se costuma dizer, quanto maior o preço do trigo sarraceno, menos ele é vendido.

Para traçar o gráfico da função de aproximação, encontramos seus dois valores:

e execute o desenho:


A linha reta construída é chamada linha de tendência (ou seja, uma linha de tendência linear, ou seja, no caso geral, uma tendência não é necessariamente uma linha reta). Todos conhecem a expressão “estar na moda” e acho que esse termo dispensa comentários adicionais.

Vamos calcular a soma dos desvios quadrados entre valores empíricos e teóricos. Geometricamente, esta é a soma dos quadrados dos comprimentos dos segmentos “framboesa” (dois dos quais são tão pequenos que nem são visíveis).

Vamos resumir os cálculos em uma tabela:


Novamente, eles podem ser feitos manualmente, por precaução, darei um exemplo para o 1º ponto:

mas é muito mais eficaz fazê-lo da forma já conhecida:

Repetimos mais uma vez: Qual é o significado do resultado obtido? De todas as funções lineares função o indicador é o menor, ou seja, em sua família é a melhor aproximação. E aqui, aliás, a questão final do problema não é acidental: e se a função exponencial proposta seria melhor aproximar os pontos experimentais?

Vamos encontrar a soma correspondente dos desvios quadrados - para distinguir, vou denotá-los pela letra “épsilon”. A técnica é exatamente a mesma:


E novamente, por precaução, os cálculos para o 1º ponto:

No Excel usamos a função padrão EXP (a sintaxe pode ser encontrada na Ajuda do Excel).

Conclusão: , o que significa que a função exponencial aproxima os pontos experimentais pior do que uma linha reta .

Mas aqui deve-se notar que “pior” é não significa ainda, o que é ruim. Agora construí um gráfico dessa função exponencial - e ela também passa perto dos pontos - tanto que sem pesquisa analítica fica difícil dizer qual função é mais precisa.

Isto conclui a solução e volto à questão dos valores naturais do argumento. Em vários estudos, geralmente económicos ou sociológicos, são utilizados “X” naturais para numerar meses, anos ou outros intervalos de tempo iguais. Considere, por exemplo, o seguinte problema.

É amplamente utilizado em econometria na forma de uma interpretação econômica clara de seus parâmetros.

A regressão linear se resume a encontrar uma equação da forma

ou

Equação da forma permite com base em valores de parâmetros especificados X ter valores teóricos da característica resultante, substituindo nela os valores reais do fator X.

A construção da regressão linear se resume a estimar seus parâmetros - UM E V. As estimativas dos parâmetros de regressão linear podem ser encontradas usando diferentes métodos.

A abordagem clássica para estimar parâmetros de regressão linear é baseada em método dos mínimos quadrados(MNC).

O método dos mínimos quadrados nos permite obter tais estimativas de parâmetros UM E V, em que a soma dos desvios quadrados dos valores reais da característica resultante (s) de calculado (teórico) mínimo:

Para encontrar o mínimo de uma função, você precisa calcular as derivadas parciais de cada um dos parâmetros UM E b e igualá-los a zero.

Vamos denotar por S, então:

Transformando a fórmula, obtemos o seguinte sistema de equações normais para estimativa de parâmetros UM E V:

Resolvendo o sistema de equações normais (3.5) seja pelo método de eliminação sequencial de variáveis, seja pelo método dos determinantes, encontramos as estimativas necessárias dos parâmetros UM E V.

Parâmetro V chamado de coeficiente de regressão. Seu valor mostra a variação média do resultado com a variação do fator em uma unidade.

A equação de regressão é sempre complementada com um indicador da proximidade da conexão. Ao usar a regressão linear, esse indicador é o coeficiente de correlação linear. Existem diferentes modificações na fórmula do coeficiente de correlação linear. Alguns deles são fornecidos abaixo:

Como se sabe, o coeficiente de correlação linear está dentro dos limites: -1 1.

Para avaliar a qualidade da seleção de uma função linear, o quadrado é calculado

Coeficiente de correlação linear chamado coeficiente de determinação. O coeficiente de determinação caracteriza a proporção de variância da característica resultante sim, explicado pela regressão na variância total da característica resultante:

Assim, o valor 1 caracteriza a parcela da variância sim, causado pela influência de outros fatores não considerados no modelo.

Perguntas para autocontrole

1. A essência do método dos mínimos quadrados?

2. Quantas variáveis ​​a regressão pareada fornece?

3. Qual coeficiente determina a proximidade da relação entre as mudanças?

4. Dentro de que limites é determinado o coeficiente de determinação?

5. Estimativa do parâmetro b na análise de correlação-regressão?

1.Christopher Dougherty. Introdução à econometria. - M.: INFRA - M, 2001 - 402 p.

2. S.A. Borodich. Econometria. Minsk LLC “Novo Conhecimento” 2001.


3. R.U. Rakhmetova Curso de curta duração em econometria. Tutorial. Almaty. 2004. -78p.

4. Eu.I. Eliseeva. - M.: “Finanças e Estatística”, 2002

5. Revista mensal informativa e analítica.

Modelos econômicos não lineares. Modelos de regressão não linear. Transformação de variáveis.

Não linear modelos econômicos..

Transformação de variáveis.

Coeficiente de elasticidade.

Se houver relações não lineares entre fenômenos econômicos, elas serão expressas usando as funções não lineares correspondentes: por exemplo, uma hipérbole equilátera , parábolas do segundo grau e etc.

Existem duas classes de regressões não lineares:

1. Regressões não lineares em relação às variáveis ​​explicativas incluídas na análise, mas lineares em relação aos parâmetros estimados, por exemplo:

Polinômios de vários graus - , ;

Hipérbole equilátera - ;

Função semilogarítmica - .

2. Regressões não lineares nos parâmetros que estão sendo estimados, por exemplo:

Poder - ;

Demonstrativo - ;

Exponencial - .

Soma total dos desvios quadrados valores individuais sinal resultante no do valor médio é causado pela influência de vários motivos. Vamos dividir condicionalmente todo o conjunto de razões em dois grupos: fator em estudo x E outros fatores.

Se o fator não influenciar o resultado, então a linha de regressão no gráfico é paralela ao eixo Oh E

Então toda a variância da característica resultante será devido à influência de outros fatores e a soma total dos desvios quadrados coincidirá com o resíduo. Se outros fatores não influenciarem o resultado, então você está amarrado Com X funcionalmente e a soma residual dos quadrados é zero. Neste caso, a soma dos desvios quadrados explicados pela regressão é igual à soma total dos quadrados.

Como nem todos os pontos do campo de correlação estão na linha de regressão, sua dispersão sempre ocorre como resultado da influência do fator X, ou seja, regressão no Por X, e causada por outras causas (variação inexplicável). A adequação de uma linha de regressão para previsão depende de qual parte da variação total da característica no contabiliza a variação explicada

Obviamente, se a soma dos desvios quadrados devido à regressão for maior que a soma residual dos quadrados, então a equação de regressão é estatisticamente significativa e o fator X tem um impacto significativo no resultado você.

, isto é, com o número de liberdade de variação independente de uma característica. O número de graus de liberdade está relacionado ao número de unidades da população n e ao número de constantes determinadas a partir dela. Em relação ao problema em estudo, o número de graus de liberdade deve mostrar quantos desvios independentes de n

A avaliação da significância da equação de regressão como um todo é dada usando F-Critério de Fisher. Neste caso, propõe-se a hipótese nula de que o coeficiente de regressão é igual a zero, ou seja, b = 0 e, portanto, o fator X não afeta o resultado você.

O cálculo imediato do teste F é precedido de análise de variância. O lugar central nele é ocupado pela decomposição da soma total dos desvios quadrados de uma variável no do valor médio no em duas partes - “explicado” e “inexplicável”:

- soma total dos desvios quadrados;

- soma dos desvios quadrados explicados pela regressão;

- soma residual dos desvios quadrados.

Qualquer soma dos desvios quadrados está relacionada ao número de graus de liberdade , isto é, com o número de liberdade de variação independente de uma característica. O número de graus de liberdade está relacionado ao número de unidades populacionais n e com o número de constantes determinadas a partir dele. Em relação ao problema em estudo, o número de graus de liberdade deve mostrar quantos desvios independentes de n possível necessário para formar uma determinada soma de quadrados.

Dispersão por grau de liberdadeD.

Razões F (teste F):

Se a hipótese nula for verdadeira, então as variâncias fatoriais e residuais não diferem entre si. Para H 0, é necessária uma refutação para que a dispersão do fator exceda várias vezes a dispersão residual. O estatístico inglês Snedekor desenvolveu tabelas de valores críticos F-relações em diferentes níveis de significância da hipótese nula e diferentes números de graus de liberdade. Valor da tabela F-critério é o valor máximo da razão de variâncias que pode ocorrer em caso de divergência aleatória para um determinado nível de probabilidade da presença da hipótese nula. Valor calculado F-relacionamentos são considerados confiáveis ​​se o for maior que a tabela.

Neste caso, rejeita-se a hipótese nula sobre a ausência de relação entre os signos e conclui-se sobre o significado desta relação: Fato F > Tabela F H 0 é rejeitado.

Se o valor for menor que o tabelado Fato F ‹, tabela F, então a probabilidade da hipótese nula é superior a um nível especificado e não pode ser rejeitada sem sério risco de tirar conclusões erradas sobre a presença de um relacionamento. Neste caso, a equação de regressão é considerada estatisticamente insignificante. Mas ele não se desvia.

Erro padrão do coeficiente de regressão

Para avaliar a significância do coeficiente de regressão, seu valor é comparado com seu erro padrão, ou seja, o valor real é determinado t-Teste do aluno: que é então comparado com o valor da tabela em um determinado nível de significância e número de graus de liberdade ( n- 2).

Erro de parâmetro padrão UM:

A significância do coeficiente de correlação linear é verificada com base na magnitude do erro coeficiente de correlação t r:

Variância total da característica X:

Regressão Linear Múltipla

Construção de modelo

Regressão múltipla representa uma regressão de uma característica efetiva com dois ou mais fatores, ou seja, um modelo da forma

A regressão pode dar bons resultados na modelagem se a influência de outros fatores que afetam o objeto de estudo puder ser negligenciada. O comportamento das variáveis ​​econômicas individuais não pode ser controlado, ou seja, não é possível garantir a igualdade de todas as outras condições para avaliar a influência de um fator em estudo. Neste caso, deve-se tentar identificar a influência de outros fatores introduzindo-os no modelo, ou seja, construir uma equação de regressão múltipla: y = a+b 1 x 1 +b 2 +…+b p x p + .

O principal objetivo da regressão múltipla é construir um modelo com um grande número de fatores, determinando a influência de cada um deles separadamente, bem como o seu impacto combinado no indicador modelado. A especificação do modelo inclui duas gamas de questões: seleção dos fatores e escolha do tipo de equação de regressão

Método dos mínimos quadrados usado para estimar os parâmetros da equação de regressão.

Um dos métodos para estudar as relações estocásticas entre características é a análise de regressão.
A análise de regressão é a derivação de uma equação de regressão, com a ajuda da qual o valor médio de uma variável aleatória (atributo de resultado) é encontrado se o valor de outra (ou outras) variáveis ​​​​(atributos de fator) for conhecido. Inclui as seguintes etapas:

  1. seleção da forma de conexão (tipo de equação de regressão analítica);
  2. estimativa de parâmetros de equações;
  3. avaliação da qualidade da equação de regressão analítica.
Na maioria das vezes, uma forma linear é usada para descrever a relação estatística dos recursos. O foco nas relações lineares é explicado pela clara interpretação econômica de seus parâmetros, pela variação limitada das variáveis ​​e pelo fato de que na maioria dos casos formas não lineares de relações são convertidas (por logaritmo ou substituição de variáveis) em uma forma linear para realizar cálculos .
No caso de uma relação linear de pares, a equação de regressão assumirá a forma: y i =a+b·x i +u i . Os parâmetros aeb desta equação são estimados a partir de dados de observação estatística x e y. O resultado dessa avaliação é a equação: , onde , são estimativas dos parâmetros a e b, é o valor do atributo resultante (variável) obtido a partir da equação de regressão (valor calculado).

Mais frequentemente usado para estimar parâmetros método dos mínimos quadrados (LSM).
O método dos mínimos quadrados fornece as melhores estimativas (consistentes, eficientes e imparciais) dos parâmetros da equação de regressão. Mas somente se certas suposições forem atendidas em relação ao termo aleatório (u) e à variável independente (x) (ver suposições MQO).

O problema de estimar os parâmetros de uma equação de pares lineares usando o método dos mínimos quadradosé o seguinte: para obter tais estimativas de parâmetros , , nos quais a soma dos desvios quadrados dos valores reais da característica resultante - y i dos valores calculados - é mínima.
Formalmente Critério OLS pode ser escrito assim: .

Classificação dos métodos de mínimos quadrados

  1. Método dos mínimos quadrados.
  2. Método de máxima verossimilhança (para um modelo de regressão linear clássico normal, postula-se a normalidade dos resíduos da regressão).
  3. O método OLS de mínimos quadrados generalizados é utilizado no caso de autocorrelação de erros e no caso de heterocedasticidade.
  4. Método dos mínimos quadrados ponderados ( caso especial OLS com resíduos heterocedásticos).

Vamos ilustrar o ponto método clássico dos mínimos quadrados graficamente. Para fazer isso, construiremos um gráfico de dispersão baseado em dados observacionais (x i, y i, i=1;n) em um sistema de coordenadas retangulares (tal gráfico de dispersão é chamado de campo de correlação). Vamos tentar selecionar uma linha reta que esteja mais próxima dos pontos do campo de correlação. De acordo com o método dos mínimos quadrados, a reta é selecionada de forma que a soma dos quadrados das distâncias verticais entre os pontos do campo de correlação e esta reta seja mínima.

Notação matemática para este problema: .
Os valores de y i e x i =1...n são conhecidos por nós; Na função S eles representam constantes. As variáveis ​​nesta função são as estimativas necessárias dos parâmetros - , . Para encontrar o mínimo de uma função de duas variáveis, é necessário calcular as derivadas parciais desta função para cada um dos parâmetros e igualá-las a zero, ou seja, .
Como resultado, obtemos um sistema de 2 equações lineares normais:
Resolvendo este sistema, encontramos as estimativas dos parâmetros necessários:

A exatidão do cálculo dos parâmetros da equação de regressão pode ser verificada comparando os valores (pode haver alguma discrepância devido ao arredondamento dos cálculos).
Para calcular estimativas de parâmetros, você pode construir a Tabela 1.
O sinal do coeficiente de regressão b indica a direção da relação (se b >0, a relação é direta, se b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formalmente, o valor do parâmetro a é o valor médio de y com x igual a zero. Se o fator-atributo não tem e não pode ter valor zero, então a interpretação acima do parâmetro a não faz sentido.

Avaliando a proximidade da relação entre as características realizada utilizando o coeficiente de correlação de pares lineares - r x,y. Pode ser calculado usando a fórmula: . Além disso, o coeficiente de correlação de pares lineares pode ser determinado através do coeficiente de regressão b: .
A faixa de valores aceitáveis ​​​​do coeficiente de correlação de pares lineares é de –1 a +1. O sinal do coeficiente de correlação indica a direção do relacionamento. Se r x, y >0, então a conexão é direta; se r x, y<0, то связь обратная.
Se este coeficiente estiver próximo da unidade em magnitude, então a relação entre as características pode ser interpretada como linear bastante próxima. Se seu módulo for igual a um ê r x , y ê =1, então a relação entre as características é linear funcional. Se os recursos x e y são linearmente independentes, então r x,y está próximo de 0.
Para calcular r x,y, você também pode usar a Tabela 1.

Para avaliar a qualidade da equação de regressão resultante, calcule o coeficiente de determinação teórico - R 2 yx:

,
onde d 2 é a variância de y explicada pela equação de regressão;
e 2 - variância residual (não explicada pela equação de regressão) de y;
s 2 y - variância total (total) de y.
O coeficiente de determinação caracteriza a proporção da variação (dispersão) do atributo resultante y explicada pela regressão (e, consequentemente, do fator x) na variação total (dispersão) y. O coeficiente de determinação R 2 yx assume valores de 0 a 1. Assim, o valor 1-R 2 yx caracteriza a proporção da variância y causada pela influência de outros fatores não levados em consideração no modelo e erros de especificação.
Com regressão linear pareada, R 2 yx =r 2 yx.