Benötigte Lesezeit: 8 Minuten
Joachim gab uns im Mai 2018 eine Einführung in Datenwissenschaft und die Programmiersprache Python, im Rahmen eines 6-wöchigen Kurses an der CODE University of Applied Sciences Berlin. Vor ein paar Tagen traf ich mich mit ihm zum Interview.
Hallo Joachim, wie würdest du einem achtjährigen Kind Data Science erklären?
Joachim Krois: Data Science/Datenwissenschaft – das ist ein schwammiger Begriff. Ich weiß gar nicht, ob es überhaupt eine klare Definition dafür gibt und ob der Begriff nicht eher in den Bereich der Buzzwords fällt. Datenwissenschaft ist ein neues Feld, welches sich in den letzten 10 Jahren entwickelt hat. Wenn ich einem Kind erklären sollte, was Datenwissenschaft ist, dann würde ich wahrscheinlich am ehesten versuchen zu beschreiben, was Teil dieser Arbeit ist. Nur Teil – nicht das Gesamtspektrum – weil dies ein sehr großes Spektrum ist, das als Querschnittsaufgabe gesehen werden kann. Dabei spricht man von einem Dreigespann an Aufgaben. Das sind wissenschaftliche mathematische statistische Grundkenntnisse, Coding-Erfahrung (Nutzung von skript-basierten Programmiersprachen für Analysen) und Domain-Knowledge, also ein spezielles Wissen über den Bereich, mit dem man sich gerade auseinandersetzt.
Ich würde einem 8-Jährigen den Begriff Data Science/Datenwissenschaft so erklären: Stell dir vor, ich möchte etwas über dich in Erfahrung bringen, aber ich möchte dich dazu nicht befragen. Stell dir außerdem vor, dass ich in dein Kinderzimmer gehe und mir ein paar deiner Spielzeuge und Kleider nehme und diese Dinge in eine Kiste packe. Als Data Scientist schaue ich nun in die Kiste und versuche anhand dieser Dinge, Aussagen über dich zu treffen. Beispielsweise, ob du ein Junge oder ein Mädchen bist, wie alt du bist, was dein Lieblings-Comic ist und welche Sachen dir Spaß machen und welche nicht.
„Datenakquise und prädiktive Arbeit sind die zwei großen Aufgabenbereiche von Data Scientists.“
Das ist ein Teil der Aufgaben als Data Scientist: Daten zu beschreiben und einen Mehrwert aus den gewonnen Daten zu extrahieren. Neben diesem beschreibenden, explorativen Wesen eines Daten Scientist gibt es noch ein anderes großes Feld, und zwar das vorhersagende oder das prädiktive Wesen. Die Idee dahinter ist, dass ich nicht nur von einem Kind ausgewählte Spielsachen und Kleidung nehme, sondern von vielen Kindern. Ich gehe also in mehrere Kinderzimmer, schnappe mir immer die gleichen Sachen und frage dabei das jeweilige Kind nach seinem Alter, seinem Lieblingsessen, seiner Lieblingsfarbe, seinem Lieblings-Comic etc. Wenn ich genug Kinderzimmer besucht habe, dann kann ich ab einem bestimmten Punkt in jedes beliebige Kinderzimmer gehen, ohne das Kind zu kennen. Ich schaue mir dessen Sachen an und kann dann mit einer gewissen Sicherheit sagen, welches Alter es hat, welches Geschlecht es hat, was sein Lieblings-Comic ist usw.
Das sind die zwei großen Aufgabenbereiche von Data Scientists. Man hat diese Kisten, die man füllt – das ist die Datenakquise – und dann versucht man basierend auf diesen Daten entweder explorativ oder prädiktiv zu arbeiten. Für die prädiktive Arbeit benötigt man in der Regel mehrere dieser Datenakquisitions-Kampagnen.
Unsere Leser interessieren sich vor allem für Künstliche Intelligenz (KI). Wie hängen Data Science und KI zusammen?
Joachim Krois: Künstliche Intelligenz – erneut ein Buzzword. Viele Menschen verstehen darunter ganz unterschiedlich Dinge. Ich habe nochmal nachgeschlagen, weil auch ich Unterschiedliches – je nach Tagesverfassung – darunter verstehe. Eine der Definitionen, die ich gefunden habe, versteht unter KI einer Maschine beizubringen, intellektuelle Aufgaben so zu lösen, wie sie ein Mensch lösen würde.
Vor nicht allzu langer Zeit hätte man es als KI bezeichnen können, wenn eine Maschine in der Lage ist, einen Schachgroßmeister zu besiegen. Das ist mittlerweile gelöst. Würde man die Maschine nun als KI bezeichnen? Nein! Weit gefehlt. Vor ein paar Jahren wurde ein weitaus komplexeres Spiel namens Go erneut von einer Maschine gelöst. Wenn man sich die Algorithmen anschaut, dann ist das eine ziemlich beeindruckende Leistung. Viele Menschen haben nicht geglaubt, dass das möglich wäre. Es ist passiert, aber hat die Maschine dadurch eine KI erreicht? Auch das nicht!
Es gibt segmentierte oder domain-spezifische Leistungen, die nicht zwingend das sind, was man aus Comics oder aus Filmen kennt und als KI oder allgemeine KI bezeichnen würde. Es ist ein riesiges Feld und manchmal genauso schwer zu fassen wie Data Science. Was die Bereiche aber gemeinsam haben und wo einer der Schnittpunkte liegt, ist das maschinelle Lernen. Dieses versetzt uns in die Lage, Programme zu schreiben und Frameworks so zu bauen, dass Maschinen nicht mehr programmiert werden müssen, um Handlungen vorzunehmen. Wenn man die Regeln vorschreibt und die Maschine danach agiert, spricht man von symbolischer KI. Beim maschinellen Lernen gibt man Daten vor und die Maschine lernt die Regeln selbst.
„Maschinelles Lernen ist eine der Techniken, die in der Datenwissenschaft angewendet wird, um prädiktiv zu arbeiten.“
Für KI ist genau dieser Aspekt relevant: dass Programme oder Systeme in der Lage sind, auf Daten oder Input aus der Welt zu reagieren, daraus zu lernen und entsprechend wissens-geleitete, schlaue und nachvollziehbare Handlungen durchzuführen. Dann könnte man von KI sprechen. Maschinelles Lernen ist eine der Techniken, die in der Datenwissenschaft angewendet wird, vor allem, um prädiktiv zu arbeiten, d.h. um prädiktive Analysen vorzunehmen. Ich habe einen Datensatz und versuche basierend auf dem Datensatz für neue Instanzen vorherzusagen was der Outcome ist. Und auch hier verwendet man viele der Algorithmen, die maschinelles Lernen mit sich bringt.
Sowohl Data Science als auch KI nutzen Algorithmen, die maschinelles Lernen ermöglichen für ihre jeweiligen Ziele. Data Science hat noch weitere Facetten. Fragestellungen wie: wie komme ich an Daten, wie lade ich sie, wie transformiere ich sie spielen ebenfalls eine große Rolle.
Wo begegnen wir Data Science in unserem Alltag? Kennst du ein paar spannende Beispiele?
Joachim Krois: Die Frage ist vielleicht eher, wo man Data Science nicht begegnet. Data Science ist, wie gesagt, ein Buzzword, und bedeutet für viele Menschen ganz Unterschiedliches. Die Frage lässt sich runter brechen auf: Wo begegnen wir Dingen, die nicht in Ansatzweisen auf Statistik oder auf Mathematik basieren? All die Systeme, die uns umgeben, basieren auf Mathematik und Statistik. Autos wären ohne mathematische und statistische Grundlagen nicht möglich. Ebenso wenig wie Straßenkreuzungen und Ampelsysteme. Die Frage ist eher wie wir es nennen wollen. Im Endeffekt sind diese Systeme und Phänomene Teil unserer kulturellen technologischen Entwicklung, d.h. wir sehen sie überall. Sie fallen besonders jetzt auf, weil sich um diese Techniken digitale Services wie automatische Übersetzungen oder Produktempfehlungen entwickelt haben.
„Es fällt mir schwer, Aspekte zu sehen, bei denen Statistik und Data Science keine Rolle spielen.“
Wer noch eine Bibliothek kennt, der weiß, dass es um sich in einer Bibliothek zurechtzufinden Anweisungen bedarf. Dazu gab es früher Kästen, in denen Schlagworte nachgeschlagen werden konnten. Diese Kästen sind sehr groß und allein das Zusammenzustellen war eine Mammutaufgabe. Mittlerweile gibt es entsprechende technische Systeme, die das vereinfachen. Wir geben ein Schlagwort in die Suchmaschine ein und bekommen dann entweder das Buch oder artverwandte Bücher sofort gezeigt.
Aus technologischer Sicht fällt es mir schwer, Aspekte zu sehen, bei denen Statistik und Data Science keine Rolle spielen. Alle sinnlichen Dinge wie das Rauschen des Meeres oder der Sonnenuntergang sind natürlich völlig frei davon. Aber wenn man in die technische Sphäre eintritt, dann finden wir mathematische und statistische Ansätze überall – es heißt nur jetzt anders.
Was hast du studiert und wie hast du Datenwissenschaft für dich entdeckt?
Joachim Krois: Ich habe Geologische Wissenschaften an der Freien Universität Berlin studiert. Man glaubt es nicht, aber auch Geowissenschaftler sind permanent mit Daten konfrontiert. Das sind Daten von und über die Erde, von und über die Umwelt und von Interaktionen zwischen menschlichen und natürlichen Systemen. Man kommt um Statistik und Datenanalyse nicht herum, wenn man dieses Studium verfolgt.
„Ein Data Scientist ein Statistiker, der mehr von Programmierung versteht als der klassische Statistiker und gleichzeitig jemand, der weniger Ahnung vom Programmieren hat als ein Programmierer.“
Ich würde mich bis heute wahrscheinlich nicht als Data Scientist bezeichnen, weil ich nicht genau weiß, was diese Bezeichnung eigentlich bedeutet. Wenn man mich festnageln würde, würde ich mich eher als Data Analyst sehen. In meiner aktuellen Position bin ich als Geo-Statistiker tätig. Ich zitiere gern Anthony Goldbloom, dem CEO von Kaggle, der kürzlich im Data Framed Podcast zum Thema „Kaggle and the Future of Data Science“ sprach. In diesem Gespräch erklärte er, was einen Data Scientist ausmacht und in dieser Definition habe ich mich wiedergefunden. Seiner Meinung nach ist ein Data Scientist ein Statistiker, der mehr von Programmierung versteht als der klassische Statistiker und gleichzeitig jemand, der weniger Ahnung vom Programmieren hat als ein Programmierer. In diesem Spannungsfeld fühle ich mich sehr wohl – besser zu coden als ein Statistiker und weniger gut als ein Full-Stack Entwickler.
Was würdest du Laien raten, die sich für Datenwissenschaft interessieren und einen Einstieg ins Thema finden möchten?
Joachim Krois: Da Sach- und Lehrbücher zu dem Thema erst langsam auf den Markt kommen, ist aus meiner Sicht das Internet der beste Ansatz, um sich diesem Feld zu nähern. Außerdem empfehle ich nach Blogs zu dem Thema zu suchen. Diese haben den Vorteil, dass sie zugänglicher und einfacher zu verstehen sind als wissenschaftliche Papers, die meistens die Grundlage oder die Methodik für die Blogs darstellen. Stößt man beim Lesen solcher Blogs auf spannende Buzzwords, kann man diese selbständig im Internet weiter recherchieren und so sein Wissen vertiefen. Außerdem gibt es fantastische Online-Ressourcen wie Codecademy, die helfen, Hürden wie “ich kann nicht programmieren” zu überwinden.
Bild von DALLE 2
Joachim Krois ist seit September 2017 als Geo-Statistiker in der Abteilung für Zahnerhaltungskunde und Präventivzahnmedizin der Charité Universitätsmedizin Berlin tätig. Die Grundlage seines beruflichen Werdegangs bildet Joachim Krois (Promotions)-Studium der Geologischen Wissenschaften an der Freien Universität Berlin. Während seines Studiums hat der gebürtige Österreicher sich intensiv mit hydrologischen Phänomenen und Datenanalysen auseinandergesetzt. Seine Forschungsergebnisse veröffentlicht er regelmäßig in wissenschaftlichen Papers.
Really Interesting Article . Nice information will look forward for your next articles as well.Keep posting the articles 🙂
If you are looking for any Data science Related information please visit out website
Hey Anvitha, thanks for the feedback! We are glad you like the article.