Neste projeto, você irá usar o R e aplicar técnicas de análise exploratória de dados para verificar relações em uma ou mais variáveis e explorar um conjunto de dados específico para encontrar distribuições, outliers e anomalias.
Análise Exploratório de dados (Exploratory Data Analysis, ou EDA) é a análise numérica e visual das características de dados e seus relacionamentos usando métodos formais e estratégias estatísticas.
EDA pode nos trazer insights, que podem nos levar a novas questões, e eventualmente a modelos preditivos. É uma importante “linha de defesa” contra dados ruins e uma oportunidade de comprovar se suas suposições ou intuições sobre um conjunto estão sendo violadas.
Essa análise irá explorar um conjunto de dados de vinhos tintos [Cortez et al., 2009], originalmente construído para modelagem da qualidade do vinho refletida por aspectos químicos de cada bebida. Obtive a ajuda de um amigo formado em química para me guiar em possíveis aspectos quimícos que podem gerar um gosto desagradável no vinho, e sob essas hipoteses guiarei minha analise.
Para iniciar iremos analisar cada variável separadamente para termos uma ideia do que estamos lidando:
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
Podemos ver que os dados estão bem formatados e embora algumas colunas aparentem ter outliers nada parece fora do normal.
Primeiro removemos a coluna de index que não é necessária.
Começaremos pela variável qualidade:
Embora tenhamos notas possiveis de 0 a 10 os dados apresentam notas apenas no intervalo 3-8 com pico no 5 e poucos exemplos nos extremos, olharemos de forma mais detalhada:
Vinhos piores:
## [1] 63
Vinhos melhores:
## [1] 217
Apenas 18 vinhos receberam a nota mais alta dos jurados e os de qualidade baixa também se encontram com pouca representatividade, iremos voltar a essa analise posteriormente.
Agora analisaremos a quantidade de álcool.
A quantidade de álcool mais comum está por volta de 9.4, com uma distribuição bem irregular (talvez uma binormal), talvez seja interessante criar subconjuntos das diferentes qualidades de vinhos para analisar melhor.
Não está muito claro devido a baixa amostragem de dados para binhos bons mas aparenta que vinhos melhores tenham mais álcool que vinhos ruins, suponho que pelo tempo de fermentação que vinhos melhores levam eles acumulam mais alcool, mas para ter mais confiança dessa afirmação é necessário uma analise de regressão.
Agora analisaremos o açúcar residual dos nossos vinhos contém.
Com uma distribuição de cauda pesada devemos setar aumentar a precisão no eixo x e aumentar a quantidade de barras para visualizar melhor.
Existe um pico ao redor do 2, vamos analisar essa região.
Neste intervalo os dados parecem estar distribuidos de forma normal, sendo onde a maioria dos vinhos se encontram, para as outras regiões talvez encontremos outliers quanto a qualidade do vinho, vinhos muito doces tendem a ser considerados ruins.
Agora voltemos a analisar a distruibuição de cauda pesada, para isso renormalizamos aplicando uma scala logaritmica.
Bem melhor, agora podemos ver um mini pico para os dados acima de 10.
Vamos analisar agora o açúcar residual nos vinhos outliers:
As modas estão em 2 porém os vinhos ruins possuem outliers a muitos desvios padrões da média (13), e as distribuições são de cauda pesada.
Cloretos indicam a salinidade no vinhos, não podendo conter em excesso, estragando o vinho.
Aqui também com cauda pesada iremos aplicar a transformação log.
Como é visivel, existe uma grande acumulação entre 0.07 e 0.09, e outliers a esquerda e direita.
Vejamos como eles desempenham:
Os de pouca salinidade tiveram notas altas, interessante.
Vemos agora o pH que descreve a acidez/basicidade do vinho na escala de 0 a 14.
Aqui vemos uma distribuição normal e bem centrada, vejamos a relação com a qualidade dos vinhos.
Não é visivel nenhuma diferença significativa entre os vinhos.
A densidade depende da quantidade de alcool e açucar residual, vejamos como está essa distribuição.
Nada fora do comum por aqui, mas vejamos como está em relação a qualidade.
Não há uma separação significativa entre as distribuições.
Uma das principais caracteristicas do sabor do vinho, talvez a mais interessante dos dados.
Os dados estão com uma distribuição muito estranha, não sendo claro alguma forma de analisa-los, mas como esperado é uma caracteristica distoante entre os vinhos. Vejamos mais de perto entre os picos:
Vamos ver agora a concentração para vinhos bons e ruins separadamente:
Para os vinhos ruins está uma cauda pesada com centro a esquerda e esparsa, ja para os vinhos bons uma distribuição talvez binormal.
Sulfatos são adicionados ao vinho para controlar aspectos na fabricação, não interferindo muito no produto final.
Com cauda pesada novamente iremos aplicar uma transformação log.
Agora temos um histograma mais centralizado com varios picos e alguns outliers, acredito que tais picos sejam dados pelo arrendondamento já que estamos em um intervalo pequeno.
Novamente analisando em relação a vinhos bons e ruins.
Vinhos ruins estão com outliers com valores bem altos, talvez isso colabore na pessima nota.
Aqui analisamos a acidez volatil, em excesso pode deixar o vinho com gosto de vinagre.
Para essa distribuição temos varios outliers de valores bem altos, acredito que esses vinhos tenham recebido nota ruim, valor analisar:
Pelo gráfico podemos ver que isso não é um fator determinante na qualidade do vinho, sendo as distribuições pertencendo ao mesmo intervalo.
Agora para acidez volatil:
A distribuição está bem inregular e acredito que novamente seja pelo truncamento, agora as distribuições para vinhos bons e ruins.
A distribuição para vinhos bons parece que foi deslizada a esqueda e menos espaçada
Comecemos a analise do SO2 pelo enxofre livre:
Quase todas estão a menos de 60, vamos dar um zoom nisso.
A distribuição tem um pico proximo do valor 7.
Agora comparando para vinhos bons e ruins:
Para os vinhos ruins vemos uma distribuição mais larga, porem os vinhos bons estão contidos nesse intervalo.
Vamos criar a variavel bound, que é o enxofre total menos o enxofre livre:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 12.00 21.00 30.59 39.00 251.50
Agora visualizamos alguns histogramas para ver como se comporta.
Temos alguns outliers vamos ver mais proximo.
Temos aqui vinhos de boa qualidade.
Comparando bons com ruins para essa variável:
Vinhos bons tem um pico muito maior e outliers maiores também.
Agora analisando a quantidade total de enxofre:
Esse histograma mostra 2 pontos de outlier, vamos dar uma olhada neles.
são os mesmos vinhos de boa qualidade que obtivemos para o enxofre ligado.
Agora o comparativo das distribuições para vinhos bons e ruins.
The poor wines histogram peaks at 109 and then at 189, whereas the excellent wines histogram shows two distinct peaks situated fairly close to each other - at 99 and 119. Also, poor wine samples are more spread out across the X axis, and the poor wines distribution seems to have a left tail.
O conjunto de dados tem 1599 registros com 11 variáveis (de aspecto químico) sendo elas fixed acidity, volatile acidity, citric acid, residual sugar, chlorides, free sulfur dioxide, total sulfur dioxide, density, pH, sulphates e alcohol + qualidade do vinho (de 0 a 10) reportada por profissionais da área.
O atributo de interesse é a qualidade do vinho dado que tal dataset foi construido com o objetivo de fazer uma analise estatistica sobre quais fatores influenciam na qualidade do vinho.
Pela analise até o momento a maioria dos fatores contribui para a qualidade do vinho, porém pH, enxofre e cloretos me paraceram mais interessante.
Criei, na seção de enxofre, criei a variável bound sulfur que é o enxofre total menos o enxofre livre, sendo esse bound o enxofre ligado a outras moleculas no vinho.
Foram encontradas diversas distribuições com outliers e de cauda pesada, os outliers analisei em graficos separadamente e as distribuições de cauda pesada apliquei a função logaritimica tornando minha distribuição normalizada, facilitando a analise
Nessa seção analisaremos as relações entre as features par a par.
Temos uma correlação significativa para a qualidade do vinho apenas para a variável alcool, o que a principio desestimula uma analise mais profunda, porém existem relações entre mais variáveis que por enquanto nos estão ocultas, além de transformações que podem ser feitas tornando as relações lineares.
Citando as relações par a par, vemos que algumas variáveis estão bem relacionadas, densidade e acidez fixada, pH e acidez fixada, enxofre ligado e enxofre total e outras não citadas menos relacionadas, variando positivamente e negativamente.
Esse par apresenta a maior correlação positiva.
Para esses outros dois plots vemos dados bem espalhados, sem nenhuma relação não-linear clara.
Aqui vemos uma correlação positiva, quanto maior a quantidade de alcool, mais provavel o vinho ter uma nota mais alta.
Esses dois pares tem pouca correlação com entre as variáveis, sendo as distribuições bem concentradas proximo a origem.
Aqui a correlação indica que vinhos de maior densidade apresentam menos alcool e de menor densidade mais alcool.
Aqui também vemos uma correlação fraca entre alcool e açúcar residual.
Aqui a indicios de uma correlação não muito forte entre enxofre ligado e o inverso da quantidade de alcool.
Temos aqui duas correlação inversamente fortes, ph e acidez fixada, alcool e cloros.
Aqui investigamos as distribuições da relação entre notas e aspecto quimico:
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.700 7.150 7.500 8.360 9.875 11.600
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.600 6.800 7.500 7.779 8.400 12.500
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.000 7.100 7.800 8.167 8.900 15.900
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.700 7.000 7.900 8.347 9.400 14.300
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.900 7.400 8.800 8.872 10.100 15.600
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.000 7.250 8.250 8.567 10.225 12.600
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4400 0.6475 0.8450 0.8845 1.0100 1.5800
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.230 0.530 0.670 0.694 0.870 1.130
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.180 0.460 0.580 0.577 0.670 1.330
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1600 0.3800 0.4900 0.4975 0.6000 1.0400
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3000 0.3700 0.4039 0.4850 0.9150
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2600 0.3350 0.3700 0.4233 0.4725 0.8500
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0050 0.0350 0.1710 0.3275 0.6600
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0300 0.0900 0.1742 0.2700 1.0000
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2300 0.2437 0.3600 0.7900
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2600 0.2738 0.4300 0.7800
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.3050 0.4000 0.3752 0.4900 0.7600
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0300 0.3025 0.4200 0.3911 0.5300 0.7200
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.200 1.875 2.100 2.635 3.100 5.700
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.300 1.900 2.100 2.694 2.800 12.900
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.200 1.900 2.200 2.529 2.600 15.500
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.477 2.500 15.400
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.200 2.000 2.300 2.721 2.750 8.900
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.400 1.800 2.100 2.578 2.600 6.400
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0610 0.0790 0.0905 0.1225 0.1430 0.2670
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.04500 0.06700 0.08000 0.09068 0.08900 0.61000
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.03900 0.07400 0.08100 0.09274 0.09400 0.61100
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.03400 0.06825 0.07800 0.08496 0.08800 0.41500
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.06200 0.07300 0.07659 0.08700 0.35800
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.04400 0.06200 0.07050 0.06844 0.07550 0.08600
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.0 5.0 6.0 11.0 14.5 34.0
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 6.00 11.00 12.26 15.00 41.00
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 9.00 15.00 16.98 23.00 68.00
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 8.00 14.00 15.71 21.00 72.00
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 6.00 11.00 14.05 18.00 54.00
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 6.00 7.50 13.28 16.50 42.00
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.00 6.75 11.00 13.90 13.75 37.00
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 8.00 14.00 23.98 32.00 107.00
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 14.00 29.00 39.53 58.00 128.00
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 11.00 19.00 25.16 33.00 126.00
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.00 8.50 15.00 20.97 21.50 251.50
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 9.25 11.00 20.17 22.75 76.00
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 12.5 15.0 24.9 42.5 49.0
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 14.00 26.00 36.25 49.00 119.00
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 26.00 47.00 56.51 84.00 155.00
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 23.00 35.00 40.87 54.00 165.00
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 17.50 27.00 35.02 43.00 289.00
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 16.00 21.50 33.44 43.00 88.00
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9947 0.9961 0.9976 0.9975 0.9988 1.0008
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9934 0.9957 0.9965 0.9965 0.9974 1.0010
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9926 0.9962 0.9970 0.9971 0.9979 1.0031
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9954 0.9966 0.9966 0.9979 1.0037
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9906 0.9948 0.9958 0.9961 0.9974 1.0032
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9908 0.9942 0.9949 0.9952 0.9972 0.9988
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.160 3.312 3.390 3.398 3.495 3.630
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.300 3.370 3.382 3.500 3.900
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.880 3.200 3.300 3.305 3.400 3.740
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.860 3.220 3.320 3.318 3.410 4.010
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.920 3.200 3.280 3.291 3.380 3.780
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.880 3.163 3.230 3.267 3.350 3.720
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4000 0.5125 0.5450 0.5700 0.6150 0.8600
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.4900 0.5600 0.5964 0.6000 2.0000
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.370 0.530 0.580 0.621 0.660 1.980
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4000 0.5800 0.6400 0.6753 0.7500 1.9500
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3900 0.6500 0.7400 0.7413 0.8300 1.3600
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.6300 0.6900 0.7400 0.7678 0.8200 1.1000
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.400 9.725 9.925 9.955 10.575 11.000
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.00 9.60 10.00 10.27 11.00 13.10
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.5 9.4 9.7 9.9 10.2 14.9
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.80 10.50 10.63 11.30 14.00
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.20 10.80 11.50 11.47 12.10 14.00
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.80 11.32 12.15 12.09 12.88 14.00
Fazendo agora um grafico da densidade divididos pela qualidade.
Vemos por esses três gráficos que apenos o de densidade por alcool parece desempenhar alguma correlação com a qualidade do vinho, também é notavel que as distribuições estão bem “deslizadas”, a de açucar residual apresentando cauda bem pesada. Sendo assim, iremos aplicar um log transform para avalia-la melhor.
Vemos agora que a distribuição se tornou bimodal, e não há uma relação clara entre as notas e as duas variáveis.
A correlação positiva mais significativa com a qualidade foi a quantidade de alcool por densidade, sendo para qualidades maiores que 4 mais significativo. Também atributos quimicos influenciam uns aos outros como esperado.
Para correlação negativa pH e acidez volatil parecem influenciar negativamente, porém como estão no mesmo intervalo é necessário uma analisa mais profunda para saber se não é mera aleatoriedade.
Para os outros fatores aparenta ter quase nenhuma relação significativa, talvez com mais transformadas e composições seja possivel encontrar algo.
Entre densidade e elementos quimicos (os quais com menor ou maior densidade) há correlações diretas, mas os diferentes atributos com diversas variações não permitem uma analise 1 para 1. Também para o pH e acidos há a correlação que acaba sendo alterada por bases na mistura.
De forma inesperada densidade se relaciona com a qualidade do vinho, se há uma implicação entre um e outro não consigo formular uma hipotese para isso, dado que o intervalo é relativamente pequeno, não parece haver um fator determinante.
Nesta seção analisaremos multiplas variaveis simultaneamente. Começamos com scatterplots com subplots pelas qualidades dos vinhos.
Como esperado há algumas tendencias aqui, positivas para açucar residual e negativas para alcool.
Agora vejamos para atributos menos correlatos.
Para esses atributos não há uma relação significtiva.
Para os vinhos de maior nota parece haver uma correlação negativa porém devida a quantidade escassa de amostras não é claro se há.
Agora construiremos uma regressão linear simples buscando valores numéricos para os coeficientes de correlação de forma combinada.
##
## Calls:
## m1: lm(formula = quality ~ alcohol, data = wine)
## m2: lm(formula = quality ~ alcohol + residual.sugar, data = wine)
## m3: lm(formula = quality ~ alcohol + residual.sugar + density, data = wine)
## m4: lm(formula = quality ~ alcohol + residual.sugar + density + volatile.acidity,
## data = wine)
## m5: lm(formula = quality ~ alcohol + residual.sugar + density + volatile.acidity +
## pH, data = wine)
## m6: lm(formula = quality ~ alcohol + residual.sugar + density + volatile.acidity +
## pH + sulphates, data = wine)
## m7: lm(formula = quality ~ alcohol + residual.sugar + density + volatile.acidity +
## pH + sulphates + free.sulfur.dioxide, data = wine)
##
## =========================================================================================================================
## m1 m2 m3 m4 m5 m6 m7
## -------------------------------------------------------------------------------------------------------------------------
## (Intercept) 1.875*** 1.882*** -42.884*** -24.273* -13.811 -0.150 2.280
## (0.175) (0.176) (12.051) (11.433) (11.858) (11.944) (12.107)
## alcohol 0.361*** 0.361*** 0.401*** 0.339*** 0.346*** 0.325*** 0.320***
## (0.017) (0.017) (0.020) (0.019) (0.019) (0.019) (0.020)
## residual.sugar -0.004 -0.026 -0.016 -0.015 -0.007 -0.003
## (0.013) (0.014) (0.013) (0.013) (0.013) (0.013)
## density 44.547*** 27.216* 17.881 3.630 1.209
## (11.990) (11.367) (11.702) (11.812) (11.975)
## volatile.acidity -1.359*** -1.272*** -1.154*** -1.160***
## (0.096) (0.099) (0.100) (0.100)
## pH -0.383** -0.303* -0.290*
## (0.119) (0.119) (0.119)
## sulphates 0.628*** 0.642***
## (0.104) (0.105)
## free.sulfur.dioxide -0.002
## (0.002)
## -------------------------------------------------------------------------------------------------------------------------
## R-squared 0.227 0.227 0.233 0.319 0.324 0.339 0.340
## adj. R-squared 0.226 0.226 0.232 0.318 0.322 0.336 0.337
## sigma 0.710 0.711 0.708 0.667 0.665 0.658 0.658
## F 468.267 234.040 161.879 187.064 152.580 136.047 116.861
## p 0.000 0.000 0.000 0.000 0.000 0.000 0.000
## Log-likelihood -1721.057 -1721.016 -1714.127 -1618.932 -1613.786 -1595.704 -1594.954
## Deviance 805.870 805.829 798.915 709.235 704.685 688.926 688.280
## AIC 3448.114 3450.031 3438.254 3249.864 3241.573 3207.408 3207.908
## BIC 3464.245 3471.540 3465.139 3282.127 3279.213 3250.425 3256.302
## N 1599 1599 1599 1599 1599 1599 1599
## =========================================================================================================================
As variaveis selecionadas explicam apenas 30%~ da variação da qualidade dos vinhos.
Há correlações entre a qualidade discretizada do vinho e as variaveis densidade e alcool, sendo positivas e negativas quanto a outras variáveis.
Embora minha crença inicial fosse de que os fatores quimicos eram muito determinantes para a analise do vinho apenas com as analises de linearidade não se pode concluir nada muito significativo, mesmo algumas variaveis tendo alguma correlação não é suficiente para explicar significativamente as notas.
Foi criado um modelo linear, mas como citado acima esse timo de modelo captura apenas relações lineares, aquelas pertencentes a outras familias de funções não puderam ser capturadas for esse modelo, talvez svms, gbms ou outros modelos de maior cardinalidade consigam obter informação inferencial significante.
Vemos que a densidade por açucar residual tem uma distribuição bimodal para os vinhos de maior qualidade e uma cauda pesada para os de menor qualidade mas de forma pouco significativa, embora tivessemos observado uma correlação significativa nos graficos anteriores, esse grafico mostra que dada as caracteristicas não há nada significante.
Esse gráfico demonstra a correlação positiva entre o alcool e a qualidade do vinho, embora não seja muito alta, um fator interessante é que para as notas menores que 5 essa tendencia não ocorre mais, embora tenhamos poucas amostras. Vemos que os valores mais nos extremos tem poucas amostras sendo a maior concentração na nota 5 e 6.
Esse gráfico segmentado mostra o terceiro par de variáveis de maior correlação, vemos aqui que também para esse par não há clara correlação, variando positivo e negativamente entre as notas, não sendo de forma significativa.
O conjunto de dados tem 1599 registros com 11 variáveis (de aspecto químico) sendo elas fixed acidity, volatile acidity, citric acid, residual sugar, chlorides, free sulfur dioxide, total sulfur dioxide, density, pH, sulphates e alcohol + qualidade do vinho (de 0 a 10) reportada por profissionais da área. Esse dataset provem de um estudo feito por Cortez et al. obtendo dados de diversos vinhos de origem portuguesa, com o objetivo de modelar a qualidade do vinho dado atributos quimicos.
A analise foi feita primeiramente com a construção de histogramas para analisar separadamente as distribuições de cada atributo dos dados, em grande parte os dados apresentavam uma distribuição Gaussiana normal e para alguns casos distribuições binormais ou de caudas pesadas. Aplicando a transformação log para esses casos foi possivel analisar melhor espacialmente esses dados. Também foram aplicados alguns filtros para remover outliers. Por fim nas transformações foi definido um intervalo para vinhos bons e ruins sepandando-os de forma binaria para simplificar a analise e poder encotrar atributos em potencial que explicassem as correlações com a qualidade.
Em seguida foram avaliados pares de variáveis sobre suas distribuições e correlações sendo escolhidos aqueles pares de maior correlação selecionados para uma analise focada. E contra a minha intuição inicial o atributo qualidade não teve correlação linear siginificativa com nenhum outro atributo. Então uma abordagem mais abrangente foi colocada em pratica segmentado por qualidade da nota e distribuição das variavéis, essa posteriomente combinada com uma terceira variável.
Foram obtidas algumas correlações com a qualidade significantes, como alcool e açucar residual, porém o poder explicativo não foi alto, em seguida uma regressão foi ajustada aos dados nao mostrando explicação da variação significativa.
Na parte final usei segmentação das qualidades para ajustar regressões a elas, permitindo analisar separadamente, também não foi notavel correlações fortes para esse tipo de grafico.
Por fim foram feitos graficos conclusivos sobre as relações entre atributos quimicos e qualidade do vinho, porém sem os resultados esperados para um hipotese linear.
Para melhorar tal analise como mostrado no artigo se usou uma svm para obter bons resultados, fazendo combinações não lineares dos dados assim podem encontrar padrões mais significativos.