O projeto

Neste projeto, você irá usar o R e aplicar técnicas de análise exploratória de dados para verificar relações em uma ou mais variáveis e explorar um conjunto de dados específico para encontrar distribuições, outliers e anomalias.

Análise Exploratório de dados (Exploratory Data Analysis, ou EDA) é a análise numérica e visual das características de dados e seus relacionamentos usando métodos formais e estratégias estatísticas.

EDA pode nos trazer insights, que podem nos levar a novas questões, e eventualmente a modelos preditivos. É uma importante “linha de defesa” contra dados ruins e uma oportunidade de comprovar se suas suposições ou intuições sobre um conjunto estão sendo violadas.

Introdução

Essa análise irá explorar um conjunto de dados de vinhos tintos [Cortez et al., 2009], originalmente construído para modelagem da qualidade do vinho refletida por aspectos químicos de cada bebida. Obtive a ajuda de um amigo formado em química para me guiar em possíveis aspectos quimícos que podem gerar um gosto desagradável no vinho, e sob essas hipoteses guiarei minha analise.

Seção de Gráficos Univariados

Visão Geral

Para iniciar iremos analisar cada variável separadamente para termos uma ideia do que estamos lidando:

##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000
## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...

Podemos ver que os dados estão bem formatados e embora algumas colunas aparentem ter outliers nada parece fora do normal.

Primeiro removemos a coluna de index que não é necessária.

Qualidade

Começaremos pela variável qualidade:

Embora tenhamos notas possiveis de 0 a 10 os dados apresentam notas apenas no intervalo 3-8 com pico no 5 e poucos exemplos nos extremos, olharemos de forma mais detalhada:

Vinhos piores:

## [1] 63

Vinhos melhores:

## [1] 217

Apenas 18 vinhos receberam a nota mais alta dos jurados e os de qualidade baixa também se encontram com pouca representatividade, iremos voltar a essa analise posteriormente.

Álcool

Agora analisaremos a quantidade de álcool.

A quantidade de álcool mais comum está por volta de 9.4, com uma distribuição bem irregular (talvez uma binormal), talvez seja interessante criar subconjuntos das diferentes qualidades de vinhos para analisar melhor.

Não está muito claro devido a baixa amostragem de dados para binhos bons mas aparenta que vinhos melhores tenham mais álcool que vinhos ruins, suponho que pelo tempo de fermentação que vinhos melhores levam eles acumulam mais alcool, mas para ter mais confiança dessa afirmação é necessário uma analise de regressão.

Açúcar residual

Agora analisaremos o açúcar residual dos nossos vinhos contém.

Com uma distribuição de cauda pesada devemos setar aumentar a precisão no eixo x e aumentar a quantidade de barras para visualizar melhor.

Existe um pico ao redor do 2, vamos analisar essa região.

Neste intervalo os dados parecem estar distribuidos de forma normal, sendo onde a maioria dos vinhos se encontram, para as outras regiões talvez encontremos outliers quanto a qualidade do vinho, vinhos muito doces tendem a ser considerados ruins.

Agora voltemos a analisar a distruibuição de cauda pesada, para isso renormalizamos aplicando uma scala logaritmica.

Bem melhor, agora podemos ver um mini pico para os dados acima de 10.

Vamos analisar agora o açúcar residual nos vinhos outliers:

As modas estão em 2 porém os vinhos ruins possuem outliers a muitos desvios padrões da média (13), e as distribuições são de cauda pesada.

Cloretos

Cloretos indicam a salinidade no vinhos, não podendo conter em excesso, estragando o vinho.

Aqui também com cauda pesada iremos aplicar a transformação log.

Como é visivel, existe uma grande acumulação entre 0.07 e 0.09, e outliers a esquerda e direita.

Vejamos como eles desempenham:

Os de pouca salinidade tiveram notas altas, interessante.

pH

Vemos agora o pH que descreve a acidez/basicidade do vinho na escala de 0 a 14.

Aqui vemos uma distribuição normal e bem centrada, vejamos a relação com a qualidade dos vinhos.

Não é visivel nenhuma diferença significativa entre os vinhos.

Densidade

A densidade depende da quantidade de alcool e açucar residual, vejamos como está essa distribuição.

Nada fora do comum por aqui, mas vejamos como está em relação a qualidade.

Não há uma separação significativa entre as distribuições.

Ácido citrico

Uma das principais caracteristicas do sabor do vinho, talvez a mais interessante dos dados.

Os dados estão com uma distribuição muito estranha, não sendo claro alguma forma de analisa-los, mas como esperado é uma caracteristica distoante entre os vinhos. Vejamos mais de perto entre os picos:

Vamos ver agora a concentração para vinhos bons e ruins separadamente:

Para os vinhos ruins está uma cauda pesada com centro a esquerda e esparsa, ja para os vinhos bons uma distribuição talvez binormal.

Sulfatos

Sulfatos são adicionados ao vinho para controlar aspectos na fabricação, não interferindo muito no produto final.

Com cauda pesada novamente iremos aplicar uma transformação log.

Agora temos um histograma mais centralizado com varios picos e alguns outliers, acredito que tais picos sejam dados pelo arrendondamento já que estamos em um intervalo pequeno.

Novamente analisando em relação a vinhos bons e ruins.

Vinhos ruins estão com outliers com valores bem altos, talvez isso colabore na pessima nota.

Acidez fixada e volatil

Aqui analisamos a acidez volatil, em excesso pode deixar o vinho com gosto de vinagre.

Para essa distribuição temos varios outliers de valores bem altos, acredito que esses vinhos tenham recebido nota ruim, valor analisar:

Pelo gráfico podemos ver que isso não é um fator determinante na qualidade do vinho, sendo as distribuições pertencendo ao mesmo intervalo.

Agora para acidez volatil:

A distribuição está bem inregular e acredito que novamente seja pelo truncamento, agora as distribuições para vinhos bons e ruins.

A distribuição para vinhos bons parece que foi deslizada a esqueda e menos espaçada

Dioxido de enxofre

Comecemos a analise do SO2 pelo enxofre livre:

Quase todas estão a menos de 60, vamos dar um zoom nisso.

A distribuição tem um pico proximo do valor 7.

Agora comparando para vinhos bons e ruins:

Para os vinhos ruins vemos uma distribuição mais larga, porem os vinhos bons estão contidos nesse intervalo.

Vamos criar a variavel bound, que é o enxofre total menos o enxofre livre:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00   12.00   21.00   30.59   39.00  251.50

Agora visualizamos alguns histogramas para ver como se comporta.

Temos alguns outliers vamos ver mais proximo.

Temos aqui vinhos de boa qualidade.

Comparando bons com ruins para essa variável:

Vinhos bons tem um pico muito maior e outliers maiores também.

Agora analisando a quantidade total de enxofre:

Esse histograma mostra 2 pontos de outlier, vamos dar uma olhada neles.

são os mesmos vinhos de boa qualidade que obtivemos para o enxofre ligado.

Agora o comparativo das distribuições para vinhos bons e ruins.

The poor wines histogram peaks at 109 and then at 189, whereas the excellent wines histogram shows two distinct peaks situated fairly close to each other - at 99 and 119. Also, poor wine samples are more spread out across the X axis, and the poor wines distribution seems to have a left tail.

Análise Univariada

Qual é a estrutura do conjunto de dados?

O conjunto de dados tem 1599 registros com 11 variáveis (de aspecto químico) sendo elas fixed acidity, volatile acidity, citric acid, residual sugar, chlorides, free sulfur dioxide, total sulfur dioxide, density, pH, sulphates e alcohol + qualidade do vinho (de 0 a 10) reportada por profissionais da área.

Quais são os principais atributos de interesse deste conjunto de dados?

O atributo de interesse é a qualidade do vinho dado que tal dataset foi construido com o objetivo de fazer uma analise estatistica sobre quais fatores influenciam na qualidade do vinho.

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

Pela analise até o momento a maioria dos fatores contribui para a qualidade do vinho, porém pH, enxofre e cloretos me paraceram mais interessante.

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Criei, na seção de enxofre, criei a variável bound sulfur que é o enxofre total menos o enxofre livre, sendo esse bound o enxofre ligado a outras moleculas no vinho.

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê?

Foram encontradas diversas distribuições com outliers e de cauda pesada, os outliers analisei em graficos separadamente e as distribuições de cauda pesada apliquei a função logaritimica tornando minha distribuição normalizada, facilitando a analise

Seção de Gráficos Bivariados

Nessa seção analisaremos as relações entre as features par a par.

Temos uma correlação significativa para a qualidade do vinho apenas para a variável alcool, o que a principio desestimula uma analise mais profunda, porém existem relações entre mais variáveis que por enquanto nos estão ocultas, além de transformações que podem ser feitas tornando as relações lineares.

Citando as relações par a par, vemos que algumas variáveis estão bem relacionadas, densidade e acidez fixada, pH e acidez fixada, enxofre ligado e enxofre total e outras não citadas menos relacionadas, variando positivamente e negativamente.

Scatter plot das correlações positivas

Esse par apresenta a maior correlação positiva.

Para esses outros dois plots vemos dados bem espalhados, sem nenhuma relação não-linear clara.

Aqui vemos uma correlação positiva, quanto maior a quantidade de alcool, mais provavel o vinho ter uma nota mais alta.

Esses dois pares tem pouca correlação com entre as variáveis, sendo as distribuições bem concentradas proximo a origem.

Scatter plot relações negativas

Aqui a correlação indica que vinhos de maior densidade apresentam menos alcool e de menor densidade mais alcool.

Aqui também vemos uma correlação fraca entre alcool e açúcar residual.

Aqui a indicios de uma correlação não muito forte entre enxofre ligado e o inverso da quantidade de alcool.

Temos aqui duas correlação inversamente fortes, ph e acidez fixada, alcool e cloros.

Box plots de qualidade

Aqui investigamos as distribuições da relação entre notas e aspecto quimico:

Qualidade e acidez fixada

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   6.700   7.150   7.500   8.360   9.875  11.600 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.600   6.800   7.500   7.779   8.400  12.500 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.000   7.100   7.800   8.167   8.900  15.900 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.700   7.000   7.900   8.347   9.400  14.300 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.900   7.400   8.800   8.872  10.100  15.600 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.000   7.250   8.250   8.567  10.225  12.600

Qualidade e acidez volatil

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4400  0.6475  0.8450  0.8845  1.0100  1.5800 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.230   0.530   0.670   0.694   0.870   1.130 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.180   0.460   0.580   0.577   0.670   1.330 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1600  0.3800  0.4900  0.4975  0.6000  1.0400 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3000  0.3700  0.4039  0.4850  0.9150 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2600  0.3350  0.3700  0.4233  0.4725  0.8500

Qualidade e acidez citrica

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0050  0.0350  0.1710  0.3275  0.6600 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0300  0.0900  0.1742  0.2700  1.0000 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2300  0.2437  0.3600  0.7900 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2600  0.2738  0.4300  0.7800 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.3050  0.4000  0.3752  0.4900  0.7600 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0300  0.3025  0.4200  0.3911  0.5300  0.7200

Qualidade e açucar residual

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   1.875   2.100   2.635   3.100   5.700 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.300   1.900   2.100   2.694   2.800  12.900 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   1.900   2.200   2.529   2.600  15.500 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.477   2.500  15.400 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   2.000   2.300   2.721   2.750   8.900 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.400   1.800   2.100   2.578   2.600   6.400

Qualidade e cloretos

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0610  0.0790  0.0905  0.1225  0.1430  0.2670 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.04500 0.06700 0.08000 0.09068 0.08900 0.61000 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.03900 0.07400 0.08100 0.09274 0.09400 0.61100 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.03400 0.06825 0.07800 0.08496 0.08800 0.41500 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.06200 0.07300 0.07659 0.08700 0.35800 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.04400 0.06200 0.07050 0.06844 0.07550 0.08600

Qualidade e dioxido de enxofre livre

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     3.0     5.0     6.0    11.0    14.5    34.0 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    6.00   11.00   12.26   15.00   41.00 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    9.00   15.00   16.98   23.00   68.00 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    8.00   14.00   15.71   21.00   72.00 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    6.00   11.00   14.05   18.00   54.00 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    6.00    7.50   13.28   16.50   42.00

Qualidade e dioxido de enxofre ligado

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.00    6.75   11.00   13.90   13.75   37.00 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    8.00   14.00   23.98   32.00  107.00 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00   14.00   29.00   39.53   58.00  128.00 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00   11.00   19.00   25.16   33.00  126.00 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.00    8.50   15.00   20.97   21.50  251.50 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00    9.25   11.00   20.17   22.75   76.00

Qualidade e dioxido de enxofre total

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0    12.5    15.0    24.9    42.5    49.0 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   14.00   26.00   36.25   49.00  119.00 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   26.00   47.00   56.51   84.00  155.00 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   23.00   35.00   40.87   54.00  165.00 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   17.50   27.00   35.02   43.00  289.00 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   16.00   21.50   33.44   43.00   88.00

Qualidade e densidade

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9947  0.9961  0.9976  0.9975  0.9988  1.0008 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9934  0.9957  0.9965  0.9965  0.9974  1.0010 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9926  0.9962  0.9970  0.9971  0.9979  1.0031 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9954  0.9966  0.9966  0.9979  1.0037 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9906  0.9948  0.9958  0.9961  0.9974  1.0032 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9908  0.9942  0.9949  0.9952  0.9972  0.9988

Qualidade e pH

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.160   3.312   3.390   3.398   3.495   3.630 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.300   3.370   3.382   3.500   3.900 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.880   3.200   3.300   3.305   3.400   3.740 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.860   3.220   3.320   3.318   3.410   4.010 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.920   3.200   3.280   3.291   3.380   3.780 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.880   3.163   3.230   3.267   3.350   3.720

Qualidade e sulfatos

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.5125  0.5450  0.5700  0.6150  0.8600 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.4900  0.5600  0.5964  0.6000  2.0000 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.370   0.530   0.580   0.621   0.660   1.980 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.5800  0.6400  0.6753  0.7500  1.9500 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3900  0.6500  0.7400  0.7413  0.8300  1.3600 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6300  0.6900  0.7400  0.7678  0.8200  1.1000

Qualidade e alcool

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.400   9.725   9.925   9.955  10.575  11.000 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.00    9.60   10.00   10.27   11.00   13.10 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     8.5     9.4     9.7     9.9    10.2    14.9 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.80   10.50   10.63   11.30   14.00 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.20   10.80   11.50   11.47   12.10   14.00 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.80   11.32   12.15   12.09   12.88   14.00

Plots de densidade

Fazendo agora um grafico da densidade divididos pela qualidade.

Vemos por esses três gráficos que apenos o de densidade por alcool parece desempenhar alguma correlação com a qualidade do vinho, também é notavel que as distribuições estão bem “deslizadas”, a de açucar residual apresentando cauda bem pesada. Sendo assim, iremos aplicar um log transform para avalia-la melhor.

Vemos agora que a distribuição se tornou bimodal, e não há uma relação clara entre as notas e as duas variáveis.

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

A correlação positiva mais significativa com a qualidade foi a quantidade de alcool por densidade, sendo para qualidades maiores que 4 mais significativo. Também atributos quimicos influenciam uns aos outros como esperado.

Para correlação negativa pH e acidez volatil parecem influenciar negativamente, porém como estão no mesmo intervalo é necessário uma analisa mais profunda para saber se não é mera aleatoriedade.

Para os outros fatores aparenta ter quase nenhuma relação significativa, talvez com mais transformadas e composições seja possivel encontrar algo.

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Entre densidade e elementos quimicos (os quais com menor ou maior densidade) há correlações diretas, mas os diferentes atributos com diversas variações não permitem uma analise 1 para 1. Também para o pH e acidos há a correlação que acaba sendo alterada por bases na mistura.

Qual foi o relacionamento mais forte encontrado?

De forma inesperada densidade se relaciona com a qualidade do vinho, se há uma implicação entre um e outro não consigo formular uma hipotese para isso, dado que o intervalo é relativamente pequeno, não parece haver um fator determinante.

Seção de Gráficos Multivariados

Nesta seção analisaremos multiplas variaveis simultaneamente. Começamos com scatterplots com subplots pelas qualidades dos vinhos.

Como esperado há algumas tendencias aqui, positivas para açucar residual e negativas para alcool.

Agora vejamos para atributos menos correlatos.

Para esses atributos não há uma relação significtiva.

Para os vinhos de maior nota parece haver uma correlação negativa porém devida a quantidade escassa de amostras não é claro se há.

Regressão linear

Agora construiremos uma regressão linear simples buscando valores numéricos para os coeficientes de correlação de forma combinada.

## 
## Calls:
## m1: lm(formula = quality ~ alcohol, data = wine)
## m2: lm(formula = quality ~ alcohol + residual.sugar, data = wine)
## m3: lm(formula = quality ~ alcohol + residual.sugar + density, data = wine)
## m4: lm(formula = quality ~ alcohol + residual.sugar + density + volatile.acidity, 
##     data = wine)
## m5: lm(formula = quality ~ alcohol + residual.sugar + density + volatile.acidity + 
##     pH, data = wine)
## m6: lm(formula = quality ~ alcohol + residual.sugar + density + volatile.acidity + 
##     pH + sulphates, data = wine)
## m7: lm(formula = quality ~ alcohol + residual.sugar + density + volatile.acidity + 
##     pH + sulphates + free.sulfur.dioxide, data = wine)
## 
## =========================================================================================================================
##                             m1            m2            m3            m4            m5            m6            m7       
## -------------------------------------------------------------------------------------------------------------------------
##   (Intercept)              1.875***      1.882***    -42.884***    -24.273*      -13.811        -0.150         2.280     
##                           (0.175)       (0.176)      (12.051)      (11.433)      (11.858)      (11.944)      (12.107)    
##   alcohol                  0.361***      0.361***      0.401***      0.339***      0.346***      0.325***      0.320***  
##                           (0.017)       (0.017)       (0.020)       (0.019)       (0.019)       (0.019)       (0.020)    
##   residual.sugar                        -0.004        -0.026        -0.016        -0.015        -0.007        -0.003     
##                                         (0.013)       (0.014)       (0.013)       (0.013)       (0.013)       (0.013)    
##   density                                             44.547***     27.216*       17.881         3.630         1.209     
##                                                      (11.990)      (11.367)      (11.702)      (11.812)      (11.975)    
##   volatile.acidity                                                  -1.359***     -1.272***     -1.154***     -1.160***  
##                                                                     (0.096)       (0.099)       (0.100)       (0.100)    
##   pH                                                                              -0.383**      -0.303*       -0.290*    
##                                                                                   (0.119)       (0.119)       (0.119)    
##   sulphates                                                                                      0.628***      0.642***  
##                                                                                                 (0.104)       (0.105)    
##   free.sulfur.dioxide                                                                                         -0.002     
##                                                                                                               (0.002)    
## -------------------------------------------------------------------------------------------------------------------------
##   R-squared                0.227         0.227         0.233         0.319         0.324         0.339         0.340     
##   adj. R-squared           0.226         0.226         0.232         0.318         0.322         0.336         0.337     
##   sigma                    0.710         0.711         0.708         0.667         0.665         0.658         0.658     
##   F                      468.267       234.040       161.879       187.064       152.580       136.047       116.861     
##   p                        0.000         0.000         0.000         0.000         0.000         0.000         0.000     
##   Log-likelihood       -1721.057     -1721.016     -1714.127     -1618.932     -1613.786     -1595.704     -1594.954     
##   Deviance               805.870       805.829       798.915       709.235       704.685       688.926       688.280     
##   AIC                   3448.114      3450.031      3438.254      3249.864      3241.573      3207.408      3207.908     
##   BIC                   3464.245      3471.540      3465.139      3282.127      3279.213      3250.425      3256.302     
##   N                     1599          1599          1599          1599          1599          1599          1599         
## =========================================================================================================================

As variaveis selecionadas explicam apenas 30%~ da variação da qualidade dos vinhos.

Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

Há correlações entre a qualidade discretizada do vinho e as variaveis densidade e alcool, sendo positivas e negativas quanto a outras variáveis.

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

Embora minha crença inicial fosse de que os fatores quimicos eram muito determinantes para a analise do vinho apenas com as analises de linearidade não se pode concluir nada muito significativo, mesmo algumas variaveis tendo alguma correlação não é suficiente para explicar significativamente as notas.

OPCIONAL: Modelos foram criados usando este conjunto de dados? Discuta sobre os pontos fortes e as limitações do seu modelo.

Foi criado um modelo linear, mas como citado acima esse timo de modelo captura apenas relações lineares, aquelas pertencentes a outras familias de funções não puderam ser capturadas for esse modelo, talvez svms, gbms ou outros modelos de maior cardinalidade consigam obter informação inferencial significante.


Gráficos Finais e Sumário

Primeiro Gráfico

### Descrição do Primeiro Gráfico

Vemos que a densidade por açucar residual tem uma distribuição bimodal para os vinhos de maior qualidade e uma cauda pesada para os de menor qualidade mas de forma pouco significativa, embora tivessemos observado uma correlação significativa nos graficos anteriores, esse grafico mostra que dada as caracteristicas não há nada significante.

Segundo Gráfico

Descrição do Segundo Gráfico

Esse gráfico demonstra a correlação positiva entre o alcool e a qualidade do vinho, embora não seja muito alta, um fator interessante é que para as notas menores que 5 essa tendencia não ocorre mais, embora tenhamos poucas amostras. Vemos que os valores mais nos extremos tem poucas amostras sendo a maior concentração na nota 5 e 6.

Terceiro Gráfico

Descrição do Terceiro Gráfico

Esse gráfico segmentado mostra o terceiro par de variáveis de maior correlação, vemos aqui que também para esse par não há clara correlação, variando positivo e negativamente entre as notas, não sendo de forma significativa.


Reflexão

O conjunto de dados tem 1599 registros com 11 variáveis (de aspecto químico) sendo elas fixed acidity, volatile acidity, citric acid, residual sugar, chlorides, free sulfur dioxide, total sulfur dioxide, density, pH, sulphates e alcohol + qualidade do vinho (de 0 a 10) reportada por profissionais da área. Esse dataset provem de um estudo feito por Cortez et al. obtendo dados de diversos vinhos de origem portuguesa, com o objetivo de modelar a qualidade do vinho dado atributos quimicos.

A analise foi feita primeiramente com a construção de histogramas para analisar separadamente as distribuições de cada atributo dos dados, em grande parte os dados apresentavam uma distribuição Gaussiana normal e para alguns casos distribuições binormais ou de caudas pesadas. Aplicando a transformação log para esses casos foi possivel analisar melhor espacialmente esses dados. Também foram aplicados alguns filtros para remover outliers. Por fim nas transformações foi definido um intervalo para vinhos bons e ruins sepandando-os de forma binaria para simplificar a analise e poder encotrar atributos em potencial que explicassem as correlações com a qualidade.

Em seguida foram avaliados pares de variáveis sobre suas distribuições e correlações sendo escolhidos aqueles pares de maior correlação selecionados para uma analise focada. E contra a minha intuição inicial o atributo qualidade não teve correlação linear siginificativa com nenhum outro atributo. Então uma abordagem mais abrangente foi colocada em pratica segmentado por qualidade da nota e distribuição das variavéis, essa posteriomente combinada com uma terceira variável.

Foram obtidas algumas correlações com a qualidade significantes, como alcool e açucar residual, porém o poder explicativo não foi alto, em seguida uma regressão foi ajustada aos dados nao mostrando explicação da variação significativa.

Na parte final usei segmentação das qualidades para ajustar regressões a elas, permitindo analisar separadamente, também não foi notavel correlações fortes para esse tipo de grafico.

Por fim foram feitos graficos conclusivos sobre as relações entre atributos quimicos e qualidade do vinho, porém sem os resultados esperados para um hipotese linear.

Para melhorar tal analise como mostrado no artigo se usou uma svm para obter bons resultados, fazendo combinações não lineares dos dados assim podem encontrar padrões mais significativos.