Machine Learning ist in aller Munde und auch ein immer größer Bereich in betrieblichen Anwendungen. Dabei ist Machine Learning nicht nur eine bestimmte Anwendung, sondern ein Überbegriff des „maschinellen Lernens“ mit Hilfe von Referenzdaten.
Ebenfalls gibt es unterschiedliche Möglichkeiten mit dem Raspberry Pi Machine Learning Algorithmen zu nutzen. Mit Start dieser Reihe wollen wir verstärkt auf solche Anwendungen eingehen und selber nachbauen und programmieren.
Zubehör und Vorbereitung
Viele der gezeigten Schritte sind nicht unbedingt an einen Raspberry Pi gebunden, jedoch dafür besonders geeignet. Die folgenden Teile sind für die Tutorials benötigt:
- Raspberry Pi
- SD Karte mit min. 16GB Speicher (3GB+ verfügbar)
- ggf. dieses Machine Learning Buch zum besseren Verständnis
Die Tutorial Reihe beschäftigt sich nicht mit den Grundlagen der Programmierung. Daher werden grundlegende Python Kenntnisse vorausgesetzt (diese sind z.B. über Onlinekurse sehr einfach erlernbar). In vorherigen Tutorials ging es bereits um den Einstieg in die Python Programmierung. Dies ist als Grundlage für dieses Tutorial zu verstehen.
Warum wir Python nutzen, hat vor allem den Grund der schnellen Anpassbarkeit. Bei anderer Sprachen benötigt es klare Vorgaben zu Struktur und Aufbau der Daten. Dies ist bei Python anders. Des weiteren ist Python eine der beliebtesten Programmiersprachen auf dem Raspberry Pi. Nicht zu vergessen ist, dass es viele gute Data Science, Deep Learning und Machine Learning Bibliotheken für Python gibt.
Was ist Machine Learning?
Das maschinelle Lernen – Machine Learning – bezieht sich darauf, dass nicht nur stupide ein einfacher Algorithmus ausgeführt wird (dessen Pfade vordefiniert sind), sondern durch das Hinzukommen neuer Daten der Algorithmus angepasst und verändert wird.
Statische Algorithmen können lediglich einfache Fälle abdecken, wie bspw. mittels „IF-THEN-ELSE“ Anweisungen. Bei Machine Learning Algorithmen wird hingegen zunächst eine Menge an Referenzdaten benötigt. Man stelle sich das Beispiel vor, Bilder von Äpfeln, Birnen und Bananen zu klassifizieren. Ein einfacher Algorithmus würde sich bspw. die Farbpixel ansehen und anschließend eine Bewertung vornehmen. Das würde im Falle von Bananen wahrscheinlich auch gut klappen, aber der Unterschied von Äpfel und Birnen wäre deutlich schwieriger zu erkennen (ganz zu schweigen von schwarz-weiß Bildern).
Ein Klassifizierungsalgorithmus, der zunächst ein Modell anhand von echten Daten erstellt, ist hier weiter: Man benötigt dabei bekannte Referenzdaten – also z.B. Bilder, von denen man weiß, was darauf zu sehen ist. Verschiedene Verfahren können anschließend daraus ein Modell erstellen und dieses zur Klassifizierung eines neuen, unbekannten Bildes nutzen. Falls die Klassifizierung erfolgreich ist, so wird das Modell mit dem neuen Datensatz (Bild) erweitert und somit ständig angepasst.
Welche Arten von Machine Learning gibt es?
Machine Learning findet in vielen Bereichen Anwendung, wobei sich die geeigneten Modelle, je nach Anwendungsgebiet, unterscheiden. Es gibt verschiedenste Ansätze, von denen hier nur beispielhaft einige genannt werden:
-
K-Nächste-Nachbarn-Klassifikation (KNN): Eine sehr einfache Möglichkeit zur Einteilung in zwei Klassen. Zunächst sucht man sich n verschiedene Merkmale aus. Bei Bildern kann z.B. jeder Pixel ein Merkmal darstellen. Daraus wird ein n-dimensionaler Vektor erstellt (pro Referenzdatensatz). Für ein neues Bild / Datensatz wird anschließend ebenso ein solcher Vektor erstellt und anschließend mit Hilfe von Abstandsmaßen (wie der euklidischen Distanz) die Entfernung zu allen Referenzdatensätzen berechnet. Anschließend nimmt man die k nähesten bekannten Datensätze (üblicherweise eine ungerade Zahl) und schaut sich ihre Klasse an. Der neue Datensatz bekommt anschließend jene Klasse, die häufiger vorkommt. Diese Methode nennt man auch „k-Nearest-Neighbor-Algorithmus“ (KNN).
Im Beispielbild rechts ist ein 2-dimensionaler Raum zu sehen. Der neue, blaue Punkt hat in seiner Nachbarschaft 4 rote und ein gelbes Objekt und wird daher als „rot“ klassifiziert. - Clusteranalyse: Hat man mehrere Klassen, so ist es oft der Fall, dass man in seinem n-dimenstionalen Raum auch mehrere kleinere Gruppen hat. Diese „Cluster“ kann man ebenfalls eingrenzen. Dabei geht es in erster Linie eben jene Gruppen zu identifizieren. Eine Aussage über die Interpretation des Clusters wird erst in einem anderen Schritt gemacht.
Welche Art von Algorithmus sich eignet, kommt sehr auf die zugrunde liegenden Daten an und was damit geschehen soll. Daher ist es auch oft möglich, dass man zu verschiedenen Ergebnissen kommt, wenn man verschiedene Algorithmen verwendet.
Wie kann man auf dem Raspberry Pi Machine Learning nutzen?
Wie bereits angesprochen, gibt es verschiedene Python Bibliotheken, welche wir auf dem Raspberry Pi, sowie jedem weiteren System mit Python, installieren können. Wir werden im Anschluss mit einem kleinen Machine Learning Projekt starten, da somit die Grundlagen am besten verstanden werden.
Beginnen wir allerdings zunächst mit der Installation von den benötigten Paketen. Du kannst zwar auch Python 2 nutzen, aber ich empfehle eine Python 3 Version. Auf der SciPy Seite ist auch eine alternative Installationsmethode genannt.
sudo apt-get install python python-pip python-numpy python-scipy python-matplotlib python-pandas python-sklearn --yes
Die Installation wird ein wenig Zeit brauchen, da die Pakete teils sehr groß sind. Du solltest zumindest 3 GB Speicher frei haben.
Wir wollen nun testen, ob alle Module korrekt installiert wurden. Starte dafür die Python Konsole und tippe folgendes ein:
1 2 3 4 5 6 7 8 9 10 11 12 |
import sys import scipy import numpy import matplotlib import pandas import sklearn print('Python: {}'.format(sys.version)) print('scipy: {}'.format(scipy.__version__)) print('numpy: {}'.format(numpy.__version__)) print('matplotlib: {}'.format(matplotlib.__version__)) print('pandas: {}'.format(pandas.__version__)) print('sklearn: {}'.format(sklearn.__version__)) |
Bei Problemen mit dem Tutorial, ist es wichtig die Versionsnummern der Module zu kennen. Wenn es keine Fehler gab, können wir weiter machen. Im Fehlerfall, sollte nach entsprechenden Meldungen gesucht werden und diese zunächst behoben werde, da ansonsten der weitere Code nicht funktionieren wird.
Einfaches Beispiel: Klassifizierung
Ein bekanntes Beispiel zur Klassifizierung im Bereich Machine Learning ist der Lilien Blumen Datensatz. Dieser enthält Datensätze von drei verschiedenen Lilien Arten, welche gekennzeichnet sind und für das Training unseres Classifiers genutzt werden kann. Anschließend wollen wir einen neuen Datensatz damit einordnen.
Um die Schritte besser zu verstehen, werden wir sie hintereinander durchgehen. Du kannst den gesamten Code aber ebenfalls als Skript speichern und als Ganzes ausführen. Starte dazu die Python-Konsole:
python
Wir laden als erstes alle benötigten Bibliotheken.
1 2 3 4 5 6 7 8 9 10 |
import pandas from pandas.tools.plotting import scatter_matrix #from pandas.plotting import scatter_matrix #import matplotlib.pyplot as plt import sklearn from sklearn import model_selection <span class="crayon-e">from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import classification_report from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score</span> |
Nun laden wir den zuvor angesprochene Datensatz. Dies ist eine CSV Datei, die jeweils 50 Datensätze zu jeder Blume enthält. Jede Zeile enthält 4 Zahlwerte, die ein Attribut (eine Dimension) darstellen. Als letztes ist das „Label“ (die Kennzeichnung) des Datensatz enthalten.
Diese Datei laden wir nun am Raspberry Pi herunter und speichern ihn in einem Array:
1 2 3 |
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv" names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class'] dataset = pandas.read_csv(url, names=names) |
Wir haben nun ein Array / eine Matrix der Größe 150×5, also 150 Zeilen mit je 5 Spalten. Diesen Wert kannst du mittels print(dataset.shape)
einsehen.
Weiterhin können wir uns ein paar (oder auch gleich alle) Zeilen anzeigen lassen, wobei das nicht unbedingt nötig ist, aber zum besseren Verständnis hilft:
1 |
print(dataset.head(10)) |
sepal-length sepal-width petal-length petal-width class 0 5.1 3.5 1.4 0.2 Iris-setosa 1 4.9 3.0 1.4 0.2 Iris-setosa 2 4.7 3.2 1.3 0.2 Iris-setosa 3 4.6 3.1 1.5 0.2 Iris-setosa 4 5.0 3.6 1.4 0.2 Iris-setosa 5 5.4 3.9 1.7 0.4 Iris-setosa 6 4.6 3.4 1.4 0.3 Iris-setosa 7 5.0 3.4 1.5 0.2 Iris-setosa 8 4.4 2.9 1.4 0.2 Iris-setosa 9 4.9 3.1 1.5 0.1 Iris-setosa
Wie bereits erwähnt, haben wir 3 Klassen mit jeweils 50 Datensätzen (print(dataset.groupby('class').size())
). Mittels matplotlib können wir uns die Verteilung der Daten noch besser grafisch anzeigen lassen, um ein Verständnis für die Daten zu bekommen. Dies ist insbesondere bei eigenen Datensätzen mit größerer Komplexität wichtig. Für dieses Beispiel überspringen wir diesen Schritt allerdings.
Machine Learning Modelle zum Evaluieren
Vorher haben wir ein paar der gängigen Modelle zum Klassifizieren von n-dimensionellen Datensätzen angesprochen. Darüber hinaus gibt es noch einige mehr, welche in der sklearn Bibliothek vorhanden sind. Um zu testen, welcher Algorithmus am besten geeignet ist, nehmen wir eine zufällige Auswahl als Trainingsdaten (80%) und den Rest (20%) als Test Daten:
1 2 3 4 5 |
X = dataset.values[:,0:4] # data Y = dataset.values[:,4] # labels validation_size = 0.20 seed = 7 X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed) |
In X sind jeweils die Datensätze und in Y die zugehörigen Labels (Bestimmung der Klassen) an den gleichen Positionen / Indizes.
Wir haben einige verschiedene Klassifizierungsalgorithmen, aus denen wir auswählen können. Wir wählen den ersten und einfachsten Algorithmus (KNN). Zur Verfügung würden stehen:
- from sklearn.neighbors import KNeighborsClassifier
- from sklearn.linear_model import LogisticRegression
- from sklearn.tree import DecisionTreeClassifier
- from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
- from sklearn.naive_bayes import GaussianNB
- from sklearn.svm import SVC
Vorhersagen mittels Machine Learning treffen
Unser ausgewählter Algorithmus nimmt die Trainingdatensätze inkl. Labels, um somit das Model zu erstellen. Anschließend möchten wir Vorhersagen für unsere Testdatensätze (Zeile 3). Wir vergleichen anschließend jene Vorhersagen mit den eigentlichen (korrekten) Klassen (Zeile 4). Eine „Confusion Matrix“ zeigt anschließend, bei welchen Kombinationen es fehler gab (alle Werte außerhalb der Diagonalen). Zu guter Letzt lassen wir uns noch einige statistische Werte wie Precision und Recall anzeigen.
1 2 3 4 5 6 |
knn = KNeighborsClassifier() knn.fit(X_train, Y_train) predictions = knn.predict(X_validation) print(accuracy_score(Y_validation, predictions)) print(confusion_matrix(Y_validation, predictions)) print(classification_report(Y_validation, predictions)) |
Um den Prozess noch etwas zu verdeutlichen, wählen wir nur einen einzigen Wert aus unserem Validierungs-Array aus und das zugehörige Label (das ganze können wir auch in einer Schleife über alle Indizes ausgeben lassen):
1 2 3 4 |
index = 0 correct_label = Y_validation[index] predicted_label = knn.predict([X_validation[index]]) print(correct_label, "vs.", predicted_label[0]) |
Nun ist dieses Beispiel sehr einfach gehalten und setzt kein tieferes Wissen zu den eigentlichen Algorithmen voraus. Dennoch gibt es einen guten Überblick über das, was möglich ist. Wenn du andere Datensätze nutzt, wirst du andere Dimensionen haben. Bei der Bilderkennung kann z.B. jedes Pixel eine Dimension darstellen. Dann ist es wichtig den passen Algorithmus zu wählen und mit Daten zu trainieren.
Weiteres zum Raspberry Pi Machine Learning
Der Raspberry Pi ist per sé kein kleines Rechenzentrum, weshalb er wohl nicht unbedingt die erste Wahl sein würde. Dennoch ist er Pi durch seine vielen Möglichkeiten an anzuschließenden Sensoren eine sehr gute Wahl. Das Trainieren eines Classifiers benötigt u.U. viel Rechenzeit und sollte daher (nach Möglichkeit) auf leistungsstärkeren System ausgeführt werden.
Alternativ zur Klassifizierung auf dem Raspberry Pi, können auch Online Dienste genutzt werden, wie bspw. den Microsoft Azure Machine Learning Dienst . Dies setzt hingegen eine konstante Internetverbindung voraus. Außerdem sind solche Dienste nicht oder nur zum Teil kostenfrei verfügbar.
Eine weitere Möglichkeit sind USB Sticks, welche mehr Rechenleistung liefern. Diese wurden in früheren Tagen z.B. zum Bitcoin / Cryptocoin Mining genutzt. Da die Installation nicht so einfach ist, rate ich Anfängern zunächst davon ab.
Auch in anderen Raspberry Pi Projekten wie dem Google AIY Spracherkennungs Kit kommt Machine Learning zum Einsatz. Gerne kannst du auch dein Projekt als Kommentar schreiben, in dem Machine Learning (in Verbindung mit dem Raspberry Pi oder einem anderen Mikrocontroller) zum Einsatz kommt.
4 Kommentare
hallo Felix,
tolles tutorial, immer wieder toll zu lesen. könnte man – auch für newbys – das lernen für eine Wetterprognose nutzen ? klar wäre das eine Herausforderung weil alles zu berücksichtigen zu wäre, aber wäre es nicht ein knaller, wenn man seine „eigene“ Wettervorhersage erstellen könnte ? ich kann mir vorstellen das dieses eine mamutaufgabe wäre, eeinen Server aufbauen der alle werte den sensoren aufnimmt und plottet, und dann aus diesen Daten dann eine vorhersage zu generieren … ? 🙂 ginge sowas überhaupt ? liebe grüße
Hallo Michael,
statt solche Daten selbst zu sammeln, ist es einfacher diese von Wetterdiensten zu beziehen. Aber ja, prinzipiell ist es möglich, wenn auch sehr sehr aufwendig.
LG, Felix
Hallo, könnte man das Machine Learning in der Verbindung mit einer USB Camera und der YOLO (you only look once) Objekterkennung benutzen? Ich hatte die Idee für ein CarPC Projekt, jedoch mit Navigation ala Tesla, in besser/anders. Also mit oben genannter YOLO Bibliothek und Machine Learning das ganze immer weiter zu optimieren, sodass wenn z.B. in 10 meter Entfernung jemand vors Auto läuft ein akustisches Signal ertönt, man eine Rundumsicht beim Parken hat usw.
Wann gibt es Teil 2?