Aula 06 - MLP Básico
Contexto: Perceptron funciona para problemas linearmente separáveis e.g. operador lógico condicional OR. Apresentado um problema a ser resolvido com o operador XOR chegamos a uma limitação:
Limitação do Perceptron: Discutidas por Minsky e Papert 1970 - Inverno da IA. IA eram basicamente Sistemas Especialistas, o que lhe garantiu certa sobrevida Foco em modelos com “garantias teóricas”: Generalização, viés/complexidade, tamanho da amostra
Multi-Layer Perceptron
Supera as limitações práticas do Perceptron
O modelo de cada neurônio inclui uma função de ativação não linear e diferenciável Contém uma ou mais camadas escondidas/ocultas entre a camada de entrada e a camada de saída A rede possui alto grau de conectividade Os neurônios escondidos não são parte nem da entrada, nem da saída da rede A primeira camada escondida é alimentada com a saída da camada de entrada.
- A saída resultante é então aplicada à segunda camada escondida, e assim em diante para toda a rede.
Camadas intermediárias Primeira camada: linhas retas no espaço de decisão Segunda camada: combina as linhas da camada anterior para formar regiões convexas Terceira camada: combina figuras convexas produzindo formatos abstratos
Professor: Para casos de classificação, a última camada se dá pelo número de itens de entrada (no caso da regressão, seria apenas uma).
Como calcular a saída da rede? A resposta dessa pergunta depende de como o peso é calculado para cada neurônio (ou melhor, cada camada).
Lê-se: o peso de w_2,1 (apenas um neurônio) dá-se pela função de ativação multiplicada pelo vetor w_1 (todos os neurônios da camada) pelo vetor com todos os valores de x. Existe um bias nesse cálculo, para x_i, porém o mesmo está oculto.
Para a próxima camada, utilizamos a camada atual como entrada para a segunda camada. Faz-se recursivamente até a saída. Estamos falando de pesos. E os sinais de entrada (x) ?
O mesmo vale para a camada de saída.
Para um problema de classificação, assume-se o neurônio com maior valor de ativação na camada de saída, como classe. Comum o uso da softmax para se calcular uma probabilidade