Neuronale Netze - Informationstheorie
LIN 8080
Das Informationsmaß, der Informationsinhalt einer Datenmenge ist Grundlage der Informationstheorie. Man geht davon aus, je weniger Neues an Information hinzukommt, desto sicherer ist diese. Umgekehrt gilt eine Information als sehr unsicher, wenn sie absolut neu ist, einen hohen Wert als Informationsmaß hat.
Man definiert: Wenn die Wahrscheinlichkeit eines Ereignisses X durch p(x) gegeben ist, dann stellt die in diesem Ereigniss enthaltene Information den log( 1/p(x) ) dar. Ist also ein Ereigniss sicher, geht p(x) gegen 1, sonst gegen Null. Ist die Wahrscheinlichkeit eines Ereignisses klein (p ist fast 0), dann ist der Informationsgehalt hoch.
Für eine endliche Anzahl von Ereignissen xi, mit i = 1, 2, ..., N ist die durchschnittliche Information (Entropie) der Ereignisse definiert als: H(X) = - Summe[j=1 bis N] p(xi) * log p(xi) = -E( log X ). E ist der erwartete Wert. H(X) erreicht ein Maximum, wenn alle Ereignisse gleich unwahrscheinlich sind.
Die wechselseitige Information stellt ein Informationsmaß für den Betrag, den eine Zufallsvariable über eine andere Zufallsvariable erhält. Für p(x,y) gemeinsame Zufälle aus p(x) und p(y) Ereignissen zu den Zufallsvariablen X und Y wird I(X,Y) = E( log( p(X,Y) / p(X) p(Y) ) ) = Summe[x] Summe[y] p(x,y) log( p(x,y) / p(x) p(y) )
Es ist bei der Definition stetiger Zufallsvariablen Vorsicht geboten, denn eine beliebige Anzahl von Werten kann eine unendliche Menge an Information beinhalten. Man hat eine Differential Entripie eingeführt und rechnet damit in den Grenzen einer Unterstützungsmenge. Für multivariante Zufallsvariablen rechnet man analog mit einem Integral anstelle eines Summenzeichens.