messo due codici da deepseek, per classificare il singolo e il multi classe

2025-02-25 12:03:21 +01:00
parent 077952260a
commit 3876c7c5b5
9 changed files with 619 additions and 216 deletions
--- a/percettroni.h
+++ b/percettroni.h
@@ -8,16 +8,16 @@ char *file_label = "mnist/t10k-labels.idx1-ubyte"; */
 /* char *file_immagini = "mnist/train-images.idx3-ubyte";
 char *file_label = "mnist/train-labels.idx1-ubyte"; */

-//#include "mnist/mnist_manager.h"
+// #include "mnist/mnist_manager.h"
 #include "cifar-10/cifar10_manager.h";
-//char *file_immagini = "cifar-10/data_batch_1.bin";
-//char *file_immagini = "cifar-10/data_batch_2.bin";
-//char *file_immagini = "cifar-10/data_batch_3.bin";
-//char *file_immagini = "cifar-10/data_batch_4.bin";
-//char *file_immagini = "cifar-10/data_batch_5.bin";
-char *file_immagini = "cifar-10/test_batch.bin";
+char *file_immagini = "cifar-10/data_batch_1.bin";
+// char *file_immagini = "cifar-10/data_batch_2.bin";
+// char *file_immagini = "cifar-10/data_batch_3.bin";
+// char *file_immagini = "cifar-10/data_batch_4.bin";
+// char *file_immagini = "cifar-10/data_batch_5.bin";
+//char *file_immagini = "cifar-10/test_batch.bin";

-//#include "xor_manager.h"
+// #include "xor_manager.h"

 // Siccome il char è un byte che rappresenta il valore tra 0 e 255. Per evitare confusioni definisco il tipo "byte" come in Java
 typedef unsigned char byte;
@@ -50,10 +50,15 @@ Percettrone inzializza_percettrone(int);
 ReteNeurale inizializza_rete_neurale(int, int, int);
 Layer inizializza_layer(int, int);

-double sigmoide(Percettrone p, double*);
+double sigmoide(Percettrone p, double *);
+double derivata_sigmoide(double);
 double **elabora_sigmoidi(ReteNeurale, Istanza);
+
+double **elabora_gradienti(ReteNeurale, double, double **);
 void discesa_gradiente(ReteNeurale, double **, double **);
 double calcola_gradiente_disceso(ReteNeurale, int, int, double **);
+
+void aggiorna_pesi(ReteNeurale*, double**, double**, Istanza);
 void correggi_pesi_percettrone_double(Percettrone *, int, double **, double);
 void correggi_pesi_percettrone_byte(Percettrone *, Istanza, double, int);

@@ -69,14 +74,15 @@ ReteNeurale *caricaReteNeurale(const char *);
 double randomico()
 {
    // Genero numeri nell'intervallo [-1,1]
-    return ((double)(rand() % 101 * 0.01 * 2.0) -1.0);
+    return ((double)(rand() % 101 * 0.01 * 2.0) - 1.0);
 }

 Percettrone inizializza_percettrone(int n_pesi)
 {
    Percettrone p;
    p.pesi = (double *)malloc(sizeof(double) * n_pesi);
-    for (int i = 0; i < n_pesi; i++) {
+    for (int i = 0; i < n_pesi; i++)
+    {
        p.pesi[i] = randomico();
    }

@@ -130,27 +136,49 @@ ReteNeurale inizializza_rete_neurale(int numero_layers, int numero_percettroni_i
    return r;
 }

-
 /*
    ################# PREVISIONI ################################
 */

+double **elabora_gradienti(ReteNeurale rete_neurale, double gradiente_errore, double **sigmoidi)
+{
+    double **gradienti = (double **)malloc(sizeof(double *) * rete_neurale.size);
+
+    // Alloco la dimensione per ogni layer
+    for (int indice_layer = 0; indice_layer < rete_neurale.size; indice_layer++)
+    {
+        gradienti[indice_layer] = (double *)malloc(sizeof(double) * rete_neurale.layers[indice_layer].size);
+    }
+
+    // Gradiente del percettrone output
+    gradienti[rete_neurale.size - 1][0] = gradiente_errore * derivata_sigmoide(sigmoidi[rete_neurale.size - 1][0]);
+
+    discesa_gradiente(rete_neurale, sigmoidi, gradienti);
+
+    return gradienti;
+}

 double sigmoide(Percettrone p, double *valori)
 {
    double sommatoria = 0.0;
-    for (int i = 0; i < p.size; i++) {
+    for (int i = 0; i < p.size; i++)
+    {
        sommatoria += (valori[i] * p.pesi[i]);
-        //printf("valore [%f] peso[%f] ", valori[i], p.pesi[i]);
+        // printf("valore [%f] peso[%f] ", valori[i], p.pesi[i]);
    }

    sommatoria += p.bias;
    double risultato = 1.0 / (1.0 + exp(-sommatoria));
-    //printf(" sommatoria %f -> %f\n",sommatoria, risultato);
+    // printf(" sommatoria %f -> %f\n",sommatoria, risultato);

    return risultato;
 }

+double derivata_sigmoide(double valore)
+{
+    return (valore * (1.0 - valore));
+}
+
 int previsione(double valore)
 {
    if (valore >= soglia_sigmoide)
@@ -158,39 +186,24 @@ int previsione(double valore)
    else
        return 0;
 }
- 
+
 void discesa_gradiente(ReteNeurale rete, double **sigmoidi, double **gradienti)
 {
-    //printf("Qui?\n");
-    // For che scorre i layer dal penultimo al primo QUINI SIZE -2
    for (int indice_layer = rete.size - 2; indice_layer >= 0; indice_layer--)
    {
-        //printf("layer: %d ", indice_layer);
-        // printf("Mi trovo nel layer %d, ho %d percettroni\n", indice_layer, rete.layers[indice_layer].size);
-
-        // For che scorre i percettroni del layer partendo dal primo
-        // Per ogni percettrone mi devo prendere il gradiente disceso dal livello sopra e moltiplicarlo per la derivata di attivazione
        for (int indice_percettrone = 0; indice_percettrone < rete.layers[indice_layer].size; indice_percettrone++)
        {
-            //printf("percettrone: %d ", indice_percettrone);
            double derivata_attivazione = sigmoidi[indice_layer][indice_percettrone] * (1.0 - sigmoidi[indice_layer][indice_percettrone]);
-
-            // Passo anche l'indice del percettrone perchè corrisponde all'indice del peso del livello sopra
            double gradiente_disceso = calcola_gradiente_disceso(rete, indice_layer + 1, indice_percettrone, gradienti);

            gradienti[indice_layer][indice_percettrone] = gradiente_disceso * derivata_attivazione;
        }
-        //printf("\n");
    }
-    //printf("Qui ?\n");
 }

 double calcola_gradiente_disceso(ReteNeurale rete, int livello, int indice_peso, double **gradienti)
 {
-    // printf("Qui ci arrivo\n");
    double sommatoria = 0.0;
-    // printf("Layer %d: N_percettroni: %d\n", livello, rete.layers[livello].size);
-    // Calcolo la sommatoria dei gradienti dei percettroni per i pesi
    for (int indice_percettrone = 0; indice_percettrone < rete.layers[livello].size; indice_percettrone++)
    {
        sommatoria += (gradienti[livello][indice_peso] * rete.layers[livello].percettroni[indice_percettrone].pesi[indice_peso]);
@@ -201,34 +214,63 @@ double calcola_gradiente_disceso(ReteNeurale rete, int livello, int indice_peso,

 double **elabora_sigmoidi(ReteNeurale rete, Istanza istanza)
 {
-    // sigmoidi è un array bidimensionale, la prima dimensione identifica il layer, la seconda il percettrone nel layer
-    // sigmoidi[indice_layer][indice_percettrone]
    double **sigmoidi = (double **)malloc(sizeof(double *) * rete.size);
    double *inputs = (double *)malloc(sizeof(double *) * N_INPUTS);
-    for(int i = 0; i < N_INPUTS; i++) {
+    for (int i = 0; i < N_INPUTS; i++)
+    {
        inputs[i] = (double)istanza.dati[i];
    }

    sigmoidi[0] = (double *)malloc(sizeof(double) * rete.layers[0].size);
-    for(int indice_percettrone = 0; indice_percettrone < rete.layers[0].size; indice_percettrone ++) {
+    for (int indice_percettrone = 0; indice_percettrone < rete.layers[0].size; indice_percettrone++)
+    {
        sigmoidi[0][indice_percettrone] = sigmoide(rete.layers[0].percettroni[indice_percettrone], inputs);
    }

-    for(int indice_layer = 1; indice_layer < rete.size; indice_layer ++) {
+    for (int indice_layer = 1; indice_layer < rete.size; indice_layer++)
+    {
        sigmoidi[indice_layer] = (double *)malloc(sizeof(double) * rete.layers[indice_layer].size);
-        for(int indice_percettrone = 0; indice_percettrone < rete.layers[indice_layer].size; indice_percettrone ++) {
-            sigmoidi[indice_layer][indice_percettrone] = sigmoide(rete.layers[indice_layer].percettroni[indice_percettrone], sigmoidi[indice_layer-1]);
+        for (int indice_percettrone = 0; indice_percettrone < rete.layers[indice_layer].size; indice_percettrone++)
+        {
+            sigmoidi[indice_layer][indice_percettrone] = sigmoide(rete.layers[indice_layer].percettroni[indice_percettrone], sigmoidi[indice_layer - 1]);
        }
    }

    return sigmoidi;
 }

-
 /*
    ################# CORREZIONI ################################
 */

+void aggiorna_pesi(ReteNeurale *rete_neurale, double **sigmoidi, double **gradienti, Istanza istanza)
+{
+    for (int indice_peso = 0; indice_peso < rete_neurale->layers[rete_neurale->size - 1].percettroni[0].size; indice_peso++)
+    {
+        // Determino gradiente del peso
+        double gradiente_peso = gradienti[rete_neurale->size - 1][0] * sigmoidi[rete_neurale->size - 2][indice_peso];
+        rete_neurale->layers[rete_neurale->size - 1].percettroni[0].pesi[indice_peso] += gradiente_peso * LRE;
+    }
+    rete_neurale->layers[rete_neurale->size - 1].percettroni[0].bias += gradienti[rete_neurale->size - 1][0] * LRE;
+
+    // Applico la correzione dal penultimo layer andando indietro fino al secondo (il primo si fa diverso)
+    for (int indice_layer = rete_neurale->size - 2; indice_layer >= 0; indice_layer--)
+    {
+        // Applico la correzione a tutti i percettroni del layer dal primo a seguire
+        for (int indice_percettrone = 0; indice_percettrone < rete_neurale->layers[indice_layer].size; indice_percettrone++)
+        {
+            // Devo prendere il gradiente del percettrone e moltiplicarlo con gli input associati ai pesi
+            if (indice_layer != 0)
+            {
+                correggi_pesi_percettrone_double(&rete_neurale->layers[indice_layer].percettroni[indice_percettrone], indice_layer, sigmoidi, gradienti[indice_layer][indice_percettrone]);
+            }
+            else
+            {
+                correggi_pesi_percettrone_byte(&rete_neurale->layers[0].percettroni[indice_percettrone], istanza, gradienti[0][indice_percettrone], indice_percettrone);
+            }
+        }
+    }
+}

 void correggi_pesi_percettrone_double(Percettrone *p, int layer, double **input, double gradiente_percettrone)
 {
@@ -259,8 +301,6 @@ void correggi_pesi_percettrone_byte(Percettrone *p, Istanza input, double gradie
    p->bias += (gradiente_percettrone * LRE);
 }

-
-
 /*
    ################# IMPORT EXPORT ################################
 */
@@ -352,129 +392,3 @@ ReteNeurale *caricaReteNeurale(const char *filename)
    fclose(file);
    return rete;
 }
-
-
-
-
-
-
-
-
-
-/* double sigmoide_byte(Percettrone, byte *, int);
-double sigmoide_double(Percettrone, double *, int);
-double *funzioni_attivazione_layer_byte(Layer, byte *);
-double *funzioni_attivazione_layer_double(Layer, double *); */
-/* void correggi_layer_interni(ReteNeurale *, double **, double **);
-void correggi_layer_input(Layer *, double **, double **, byte *, int); */
-/* // Questa funzione calcola tutte le funzioni di attivazione dei percettroni del layer che prende dei byte come inputs
-double *funzioni_attivazione_layer_byte(Layer layer, byte *inputs)
-{
-
-    double *funzioni = (double *)malloc(sizeof(double) * layer.size);
-
-    for (int i = 0; i < layer.size; i++)
-    {
-        funzioni[i] = sigmoide_byte(layer.percettroni[i], inputs, layer.percettroni[i].size);
-        // printf("\tsigmoide layer input %f\n", funzioni[i]);
-    }
-
-    return funzioni;
-}
-
-// Questa funzione calcola tutte le funzioni di attivazione dei percettroni del layer che prende dei double come inputs (le sigmoidi del livello precedente)
-double *funzioni_attivazione_layer_double(Layer layer, double *inputs)
-{
-
-    double *funzioni = (double *)malloc(sizeof(double) * layer.size);
-
-    for (int i = 0; i < layer.size; i++)
-    {
-        funzioni[i] = sigmoide_double(layer.percettroni[i], inputs, layer.percettroni[i].size);
-        // printf("\tsigmoide layer %d: %f\n", i, funzioni[i]);
-    }
-
-    return funzioni;
-}
- */
-/* // Questa funzione prende la matrice dei gradienti e la matrice delle sigmoidi per correggere tutti i layer tranne quello di ingresso
-void correggi_layer_interni(ReteNeurale *rete, double **gradienti, double **sigmoidi)
-{
-
-    for (int indice_layer = rete->size - 1; indice_layer > 0; indice_layer--)
-    {
-        for (int indice_percettrone = 0; indice_percettrone < rete->layers[indice_layer].size; indice_percettrone++)
-        { // Numero percettroni
-
-            for (int indice_peso = 0; indice_peso < rete->layers[indice_layer].percettroni[indice_percettrone].size; indice_peso++)
-            { // Numero pesi
-                gradienti[indice_layer][indice_percettrone] = gradienti[rete->size - 1][0] * (sigmoidi[indice_layer][indice_percettrone] * (1 - sigmoidi[indice_layer][indice_percettrone]));
-                rete->layers[indice_layer].percettroni[indice_percettrone].pesi[indice_peso] += (gradienti[indice_layer][indice_percettrone] * LRE * sigmoidi[indice_layer - 1][indice_percettrone]);
-                // rete->layers[indice_layer].percettroni[indice_percettrone].pesi[indice_peso] += (gradienti[rete->size-1][0] * LRE * sigmoidi[indice_layer-1][indice_percettrone]);
-            }
-            rete->layers[indice_layer].percettroni[indice_percettrone].bias += (gradienti[indice_layer][indice_percettrone] * LRE);
-            // printf("bias: %f\n", rete->layers[indice_layer].percettroni[indice_percettrone].bias);
-        }
-    }
-}
-// Questa funzione prende tutti i parametri della precedente + gli input passati dal dataset per correggere il layer di ingresso
-void correggi_layer_input(Layer *layer, double **gradienti, double **sigmoidi, byte *inputs, int n_layers)
-{
-    // L'indice del layer d'ingresso che prende byte per input
-    int indice_layer = 0;
-    for (int indice_percettrone = 0; indice_percettrone < layer->size; indice_percettrone++)
-    { // Numero percettroni
-        for (int indice_peso = 0; indice_peso < layer->percettroni->size; indice_peso++)
-        { // Numero pesi
-
-            gradienti[indice_layer][indice_percettrone] = gradienti[n_layers - 1][0] * (sigmoidi[indice_layer][indice_percettrone] * (1 - sigmoidi[indice_layer][indice_percettrone]));
-            layer->percettroni[indice_percettrone].pesi[indice_peso] += (gradienti[indice_layer][indice_percettrone] * LRE * inputs[indice_peso]);
-            // layer->percettroni[indice_percettrone].pesi[indice_peso] += (gradienti[n_layers-1][0] * LRE * inputs[indice_peso]);
-        }
-        layer->percettroni[indice_percettrone].bias += (gradienti[n_layers - 1][0] * LRE);
-    }
-}
- */
-/* 
-// Questa funzione viene usata per il primo livello perchè ha un vettore di byte (unsigned char) in input
-double sigmoide_byte(Percettrone p, byte *valori, int n_input)
-{
-
-    double sommatoria = 0.0;
-    // printf("valori: [%d][%d]", valori[0], valori[1]);
-    // printf("pesi: [%f][%f]", p.pesi[0], p.pesi[1]);
-
-    for (int i = 0; i < n_input; i++)
-    {
-        sommatoria += ((double)valori[i] * p.pesi[i]);
-    }
-    // printf("sommatoria= %f\n", sommatoria);
-    double funzione = sommatoria + p.bias;
-    double potenza_e = exp(-funzione);
-    // printf("potenza_e= %f\n", potenza_e);
-    // formula sigmoide
-    double risultato = 1.0 / (1.0 + potenza_e);
-    // printf("risultato= %f\n", risultato);
-    return risultato;
-}
-
-// Questa funzione viene usata per gli altri livelli dove gli input sono double, ossia i valori della sigmoide dei livelli precedenti
-double sigmoide_double(Percettrone p, double *valori, int n_input)
-{
-    double sommatoria = 0.0;
-    for (int i = 0; i < n_input; i++)
-    {
-        sommatoria += (valori[i] * p.pesi[i]);
-    }
-
-    double funzione = sommatoria + p.bias;
-    // printf("sommatoria= %f\n", sommatoria);
-    double potenza_e = exp(-funzione);
-    // printf("potenza_e= %f\n", potenza_e);
-    // formula sigmoide
-    double risultato = 1.0 / (1.0 + potenza_e);
-    // printf("risultato= %f\n", risultato);
-
-    return risultato;
-}
- */