Skillbyte Podcast #14: Big Data und Machine Learning Projekte richtig angehen
Willkommen zum Skillbyte-Podcast! Skillbyte ist Ihr Partner für digitale Exzellenz.
In diesem Podcast geht es um das Thema: Big Data und Machine Learning Projekte richtig angehen
// Inhalt //
01:15 - Definition & Beispiele: Was ist ein Big Data Projekt?
01:59 - Ist das wirklich ein Big Data Projekt und erfüllt es 2 der 3Vs?
03:58 - Big Data Maturity Model für Technologie und Unternehmen
05:41 - Anamnese - Wo steht der Kunde heute?
07:26 - Agile Task Force für kleine Projekte statt Big Bang
08:51 - Big Data Projekte im Business Development
10:54 - Fokus durch Minimal Viable Product
13:54 - Kategorien von Big Data Projekten
17:54 - Big Data Beispielprojekt
20:27 - Warum die schelle Entwicklung eine Proof of Concept wichtig ist!
22:18 - Schritt 1: Welche aktuellen Big Data Technologien gibt es?
23:54 - Schritt 2: Wo steht der Kunde heute?
25:13 - Orchestrierung der richtigen Technologie Komponenten ist die Kunst
27:02 - Das CAP Theorem
29:14 - Datenhoheiten in der Organisation
30:20 - Schritt 3: Zielbild - Was möchte der Kunde erreichen?
31:35 - Schritt 4: Umsetzung / Proof of Concept
32:18 - Ideen-Backlog
33:17 - Continuous Improvement
37:42 - Beispiele für Big Data Projekte
40:00 - Große Daten, Kleine Daten
Abonnieren Sie diesen Podcast und besuchen Sie uns auf https://www.skillbyte.de
Feedback und Fragen gerne an podcast@skillbyte.de
AUTOMATISCH ERZEUGTES TRANSKRIPT
Herzlich Willkommen zu unserem Skillbyte Podcast Nr. 14, Big Data und Machine Learning Projekte richtig angehen. Mein Name ist Maurice und ich freue mich heute mit Euch über dieses super interessante und spannende Thema sprechen zu können. Abonniert unseren Podcast gerne, wenn ihr mehr Informationen zu spannenden Themen haben möchtet. Aus dem Technologie Umfeld schreibt uns Fragen an Podcast Skillbyte Lass uns einen Daumen oder eine gute Bewertung da und meldet euch, wenn ihr Fragen habt oder wir gewisse Sachverhalte für euch noch mal genauer erklären sollen.
Gar kein Problem. Wir freuen uns immer. Ich bin heute hier mit einem alten Podcast Hasen da. Hallo Masiar hat man schon nach der Podcast Gandalf ja schon fast graue Eminenz des Podcasts, der die graue Eminenz des Podcast, die aber ein ungemein riesiges Fachwissen hat, gerade auch im Technologiebereich bei Projekt basierte Vorgehen würde ich mal sagen. Heute sind wir hier zusammen, um einfach mal darüber zu sprechen Wie gehen wir Big Data Projekte an? Was haben wir schon gemacht?
Wie? Wie ist unser generelles Vorgehen? Wir geben auch Beispiele aus der Praxis, damit sich unsere Zuhörer etwas genauer vorstellen können, wie das abläuft. Wir beginnen ja oft mit einer Definition. Ich würde auch direkt einsteigen wollen mit der Definition Was ist ein Big Data Project? Also es gibt verschiedene Arten von Big Data Projekten. Eine Geschmacksrichtung, das sogenannte Grüne Wiese Projekt, beginnt oft mit der Frage Wie können wir Daten basiert, unser bestehendes Geschäftsmodell stabilisieren und ausbauen sowie in neue Bereiche expandieren.
Ich glaube, das kann man fast als Grundfrage oder Kernfrage der Digitalisierung bezeichnen. Wie können wir unser Geschäftsmodell mithilfe von Daten sicherer machen und die Wertschöpfung erhöhen, um gegebenenfalls neue Bereiche zu erschließen? Das ist oftmals bei unseren Kunden die Ausgangsfrage. Es werden Daten gesammelt oder auch noch nicht. Die Frage ist Was kann man da mit den Daten machen und wie können wir die Daten für unser Geschäft nutzen? Die allererste Frage, die wir ja oft stellen oder die wir uns stellen und die wir dann auch den Kunden stellen ist das wirklich ein Big Data Project?
Das ist ein bisschen provokativ gefragt, aber es gibt die sogenannten Dreifuß oder Treffs. Zwei davon sollten mindestens erfüllt sein, damit man wirklich sagt Okay, wir haben es hier mit einem echten Big Data Projekt zu tun und die Dreifuß stehen für Variety, Valium und Velocity. Wobei Variety bezieht sich auf die Datenformate, liegen die Daten in verschiedenen unterschiedlichen Formaten vor Bilder, Texte, SMS, Video, verschiedene Sensordaten. Wie liegen die vor in relationalen Datenbanken, CSV Dateien, Textdateien, LOG Dateien?
Das wäre mit Variety gemeint. Das zweite V steht für Volumen, also haben wir es wirklich mit Daten im Terabyte Bereich zu tun. Viele Sensordaten oder viele Log Daten, die schnell anwachsen. So haben wir es wirklich mit diesen Datenmengen zu tun. Sonst kann man häufig auch muss man keine Big Data Technologie benutzen, sondern kann mit konventionellen Technologien arbeiten. Das dritte V steht für Velocity. Also wie schnell wachsen die Daten und wie schnell müssen die ausgewertet werden? Reicht es im Prinzip einmal am Tag eine Bachelorarbeit zu machen oder muss man in Echtzeit jederzeit eine Auswertung ermöglichen?
Da gebe ich dir recht. Das liegt überhaupt mitgekriegt vor. Weil Daten zu haben ist was anderes als Big Data zu haben. Und was wir jetzt mal eine Ebene drüber. Grundsätzlich ist bei so einem Vorgehen Kunden haben gehört Okay, mit Daten kann man viel machen und Daten getriebene Entscheidungen treffen, also nicht basierend auf hätte, wollte, könnte und irgendwelchen Hypothesen, sondern bestätigte Hypothesen Entscheidungen zu treffen. Was das glaube ich, ganz wichtig ist, ist am Anfang, bevor man in so ein Projekt überhaupt reingeht, mal so eine Art Bestandsaufnahme zu machen.
Das heißt zu gucken, welche Systeme gibt es, welche Art von Daten generieren die, wie viel Daten generieren die, in welcher Frequenz generieren sie? Und das kann man sehr schön. Das nennt sich Data. Mit dem Modell kann man im Prinzip auf ein, zwei Seiten manifestieren, seine Systeme identifizieren und und beschreiben. Da gibt es mehr von einer amerikanischen Universität entworfen. Dieses Modell für Data Projekte, wo man quasi so eine Landkarte macht und sieht Okay, was habe ich denn überhaupt für Daten vorliegen?
Wenn man die Daten erst mal sieht und feststellt, welche Dinge enthalten sind, dann kann man den Kunden auch dahingehend beraten und sagen Du kannst du mit den Daten, also die die Daten hast du jetzt so aktuell und man könnte dann oder man macht dann in so einem Workshop man Kunden und Sarkozy. Das und das könntest du mit den Daten machen, völlig unabhängig von Datenschutz und all diesen Dingen, sondern erst mal völlig frei philosophiert, versorgt. Das sind die Fakten, die Daten, wo das Geld man macht und dann kann man die nächsten Schritte gehen und sagen, wenn man ihnen die Daten mehr hätte in den verschiedenen Systemen, also quasi durch kleine Kurdenregion, da könnte man mehr.
Daten generieren, die noch mehr bieten würden. Das sind dann die nächsten Schritte, aber das ist für mich so, wäre für mich nur der allererste Schritt überhaupt im Grund auch zu sein. Also das ist jetzt da, wo du stehst. Also diesen Reifegrad hast du. Aber das ist nur technisch. Und viel wichtiger ist das Organisatorische, nämlich dass das Unternehmen an sich bereit ist, mit Daten zu arbeiten. Das heißt dasselbe Die SDK mit dem Model kann man auch für Unternehmen machen.
Das was Mirai ist ein Unternehmen überhaupt mit Daten umzugehen und daraus getrieben Entscheidungen zu treffen und so weiter, so dass selbiges normal auf dieser Ebene. Und das sind nur die ersten beiden Schritte.
Diese Anamnese oder das Vorgespräch nenne ich jetzt mal, ist ja auch bei uns in dem bei unserem Projekt Vorgehen immer der erste Schritt. Am Anfang hören wir eigentlich viel mehr zu und versuchen so viel wie möglich über die Organisation zu lernen und auch genau diese beiden Aspekte herauszuhören. Wie weit ist das Unternehmen technisch und wie weit auch organisatorisch? Weil häufig ist es ja organisatorisch so, dass die Entscheidungen noch die Entscheider, langjährigen Entscheider und Verantwortlichen treffen. Dass aus so einer.
Ich will jetzt nicht sagen aus dem Bauch heraus. Die bereiten sich schon vor, aber am Ende wird so ein schon sehr stark nach Gefühl entschieden. Ich glaube, das kann man so sagen.
Und in Unternehmen, die einen sehr hohen Reifegrad aufweisen, da gibt es sehr, sehr wenig dieser Bauchentscheidung, sondern die Daten legen im Grunde schon nahe, wie man sich zu entscheiden hat. Also die Fragestellungen treten gar nicht so auf, weil in den Daten ist völlig klar, wie man sich verhalten muss, um mehr Kunden zu generieren. War mal eben weiß, welche Funktionen an einem Produkt die Kunden nutzen und welche nicht. Ja, wenn man das auswertet. Ich sage mal an der Industrie Maschine oder auch bei einem Service, dann weiß man sehr schnell, wo der Kundennutzen herkommt und wo er nicht herkommt und wo es sich lohnt, in welche Richtung das Produkt weiter zu verbessern.
Apropos das war ein mega Stichwort Kundennutzen generell generell das Thema irgendwie schon fast zu genüge. Alle gehört dieses Thema Digitale Transformation. Aber wie geht man denn so eine Transformation überhaupt an? Ich meine jetzt mit Daten umgehen. Das ist auch ein Teil der digitalen Transformation. Agilität, Scrum, Debord das sind alles Dinge, die zu einer digitalen Transformation gehören. Aber ich habe die Erfahrung gemacht, wenn man solche Dinge einführen will in ein Unternehmen, dann machen viele den Fehler, dass es so ein Big Bang ist.
Ich will jetzt digital transformieren müssen. Krempeln wir jetzt das Unternehmen um und viel mehr von Erfolg gekrönt ist, wenn ich mir mal im Unternehmen eine kleine, agile, neugierige Truppe zusammen suche, die deutschen Themen aufgeschlossen gegenübersteht und mit denen macht man so eine Art Value Stream Mapping. Da sind wir bei diesem Kundennutzen. Welche Value Streams habe ich das? Welche Prozesse habe ich in Unternehmen, die von Anfang bis zum Ende Nutzen für den Kunden schaffen? Welche Prozesse sind das?
Verschiedene Kategorien. Dass man sich ein kleines, relativ einfaches rauspicken und sagt So, wie kann ich jetzt mit Daten unterfüttert diesen Value Stream vergrößern für den Kunden und das mal am Beispiel machen mit dieser Truppe die neue Helm aufgeschlossen ist und mit dem Erfolg dann im Unternehmen hausieren zu gehen, sagen Guck mal, wir haben das hier im kleinen Teil bewiesen, dass das funktioniert und sucht sich dann Verbündete im Unternehmen, wo man das ein bisschen größer spielt für die nächste Runde und und und.
Bis ich das Visum Hefeteig quasi durchs Unternehmen und vor allen Dingen durchs Management durch durchzieht und man den Vorteil sehr handgreiflich manifestiert sieht und fühlt und erlebt, dass die, die am meisten Erfolg versprechen würde.
Zur Definition Was ist ein Big Data Project? Sind wir hier eingestiegen und das ist ein Big Data Project im Bereich Business Development, wo man eben zusammen mit der Organisation und idealerweise auch dem Kunden vorhandene Wertschöpfungsketten untersucht und optimiert oder eben neue Wertschöpfungsketten auch schafft. Also das ist ganz, ganz klar ein riesen Hebel, weil man hier oft ich sage mal diesen diesen Sprung schon von 0 auf 1 schafft so eine Daten Wertschöpfungskette ist. Jetzt fällt mir ein Beispiel ein, z.B. Wenn du ein Paket geschickt bekommst von der DHL, dann ist das ja mittlerweile oder seit einigen Jahren schon so, dass du quasi lückenlos per Push Nachricht, wenn man das möchte, darüber auf dem Laufenden gehalten wirst.
Wann kommt das Paket an, wann wird es verschickt? Es ist jetzt in meiner Umgebung. Ist es bei mir zu Hause abgegeben worden oder bei der Post? So und diesen Prozess, der wurde ja irgendwann mal aufgesetzt und liefert ja einen Wert für Menschen, die vielleicht in der Nähe arbeiten und dann kurz zu Hause das Paket annehmen können oder eben wissen, in welche Post es gebracht wurde und die Post hat. Ein Wert, weil sie weniger zu schnell Fahrten machen muss.
Und das ist ein sehr gutes Beispiel dafür. Und es ist ein BigData Projekt, weil es Millionen von Pakete jeden Tag verschickt werden. Das muss man ja auch sagen, es ist ja kein triviales Problem. Und das sind sehr sehr schöne Projekte, die eben viel Spaß machen. Oft, da gebe ich dir recht. Nimmt man einen vorhandenen Prozess, den das Unternehmen schon kann und unterfüttert den mit Daten oder baut den dann eben aus. Manchmal im Business Development geht es natürlich auch darum, neue Wertschöpfungsketten zu entwickeln und zu erschließen.
Also eine neue Infrastruktur, um große Datenmengen, die vielleicht noch gar nicht ausgewertet werden, im Unternehmen erst überhaupt mal greifbar zu machen. Wie ist der Produktions Ausschuss oder wie können wir aus den verschiedenen Log Daten der Webserver? Können wir denn ein Muster ableiten für die Skalierung unserer Infrastruktur oder oder oder. Dann wird ja häufig, wenn ein Business Development Thema ausgerufen wird, da glaube ich, liegt auch die Skillbyte Expertise wird ein Pow of Concept oder MVP also minimal bei Produkt soll dann umgesetzt werden.
Sehr schnell, dass man ganz abgegrenzten Feld sagt Okay, wie wäre es denn, wenn wir die Daten auswerten? Was lernen wir denn aus diesen Daten und was können wir dann besser machen? Dass man wirklich innerhalb von wenigen Tagen und Wochen einen ganz bestimmten Anwendungsfall untersucht, der sich eben auf die Daten anwenden lässt, um herauszufinden, ob man seinen neuen Geschäftsbereich erschließen kann oder ob man da eine Verbesserung erzielt? Da sind wir auch supergut und haben schon vielen Kunden geholfen.
Ob das mit Chain Protection ist oder mit verschiedenen anderen technischen Simulationen zum Daten verhalten.
Es ist halt immer was anderes, wenn man mal in Powerpoint Präsentation oder Workshops darüber spricht und versucht die Fantasie anzuregen. Ja, funktioniert etwas, aber es ist etwas ganz anderes. Wenn ich mit echten Daten natürlich dann nicht im Big Sinne, sondern mit einem kleinen Sample dieser Daten den tatsächlichen Fall simulieren und zeige Guck mal, so sieht das System aus, so kann es funktionieren, sogar skalieren. Aber es ist mit echten Daten. Es ist eine echte Applikation und guck mal, es funktioniert.
Meistens ist es so, dass man auch einen Algorithmus oder so was beweisen will, dass das so funktioniert und sagt dann Okay, da haben wir jetzt alle gesehen. Wunderbar Konzept bis da. Wie kann man das installieren? Kann man ja jetzt schon tausend Zeilen 40 Milliarden Zeilen bearbeiten. Genau so handelt man sich Schritt für Schritt größer.
Ja ne, es ist auch super wichtig, dass die Leute das sehen und begreifen, was was genau welche neue Möglichkeit besteht. Und dafür ist so eine kleine Demo. Ich sage mal auf einem Laptop mit 1000 Daten punkten natürlich ausreichend, um dieses Verständnis zu schaffen, weil die Big Data Projekte je nach Datenvolumen können ja schon sehr komplex werden, auch was die Infrastruktur angeht. Und das klammert man in diesem ersten Schritt erst einmal komplett aus und sagt Der Wert ist ja auch da, wenn ich nur mit begrenzten Daten arbeite und der vervielfältigt sich ja, wenn ich dann auf den ganzen Daten später arbeiten kann, aber erst mal guckt man Funktioniert das, was ich mir ausgedacht habe, liefert das Mehrwert?
Und das ist ja, es ist mal wieder ein toller Moment vor Kunden das dann zeigen zu können, wenn man so richtig sieht, wie sie dann das erste Mal sehen und sagen Oh ja, genauso habe ich mir das vorgestellt. Und da muss man fast schon bremsen und sagen Okay, das ist jetzt noch nicht fertig, sondern das ist hier ne Demo. Also ich kann mich da erinnern an Projekte, wo wir sehr oft darauf hingewiesen haben, dass das jetzt wo ist, wo doch nicht erst nach zwei Tagen die finale Version der große Unternehmensberater, die nicht mit einer Powerpoint dahin und ich liefert dann gerne auch gute Qualität und die braucht auch manchmal ein bisschen.
Und da kann ich dich einfach irgendwie mein Zauberkasten aufmachen und sage So ist es fertig, ihr könnt morgen loslegen soll. Das sollte dann schon ein bisschen fundiert sein, aber da haben unsere Kunden natürlich auch was von, wenn sie dann ein verlässliches System hinter haben. Also noch mal um zusammenzufassen Big Data Projekte sind Fallen im Bereich Business Development an Point of Concept MVP Projekte gibt es dann die sogenannten Grüne Wiese Projekte, die ja auch so ein bisschen Wenn man ehrlich ist, sind das hier so Proof of Concept Projekte meistens, wo man dann sagt man, man möchte irgendeine Hypothese validieren oder falsifizieren.
Und dann was auch relativ häufig vorkommt ist, dass man vorhandene Bestands Systeme erweitert, weil sich die Anforderungen eben ändern. Also die Bestands Systeme, die sehr viele Daten verarbeiten und generieren. Beispielsweise jede Nacht ein Report, der dann für den nächsten Tag bereitsteht und aus dem Business ergibt sich dann die Notwendigkeit nee, das reicht jetzt aber nicht mehr das wir einmal am Tag diesen Report bekommen, sondern er muss im Grunde fortlaufend aktuell sein. Also Web Analytics könnte man sich vorstellen, dass man quasi immer genau weiß wie sind denn die Ströme auf meiner Webseite und wie muss ich gewisse Content Arten ausspielen um dem Zuschauer Geschmack zu treffen, dass das einfach in Echtzeit funktionieren muss und dass nicht das heute reicht, wenn ich weiß wie es gestern war.
Sozusagen.
Big Data Projekte gehen halt auch meistens mit dem. Projekten einher, weil was nutzt es, diese vielen Daten zu haben, ohne sie auch wirklich analysieren zu können und nur zur Ergänzung. Du hast gesagt, dass das Projekt hauptsächlich im Business Development anfallen. Aber es gibt natürlich auch Projekte, die zur Sicherheit in Richtung Security oder Prävention eingesetzt werden. Dass Dinge nicht ausfallen, das muss erkannt werden, wo immer es ausfällt. Es ist schon sehr, sehr vielfältig, aber schon recht hauptsächlich ist es Business Development, die der entscheidende Träger.
Also man muss ja auch sagen, die Kunden machen sich schon Gedanken und haben ein gewisses Problem vor Augen. Also es muss man ja schon sagen, die kommen ja nicht zu uns und sagen wir haben keine Ahnung, aber das wird gehypt. Macht mal Daten bei uns rein. Also nein, auf gar keinen Fall. Sondern denen ist schon klar sie verlieren viel Zeit und damit auch Geld. Wenn zum Beispiel eine Industrie Maschine läuft, bis sie wirklich kaputt geht und dann das Ersatzteil beschafft werden muss.
Das muss eingebaut werden. Die Maschine muss neu zentriert werden und dann geht es weiter. Man hat diesen Stillstand und dieses Ersatzteil. Und natürlich wäre es für die besser, wenn die heute wüssten, dass die Maschine in ungefähr zwei Wochen kaputt geht oder so was, weil dann könnten Sie das schon mal, können Sie die Bestellung von diesem Teil schon mal auf in Auftrag geben oder verschiedene andere Sachen, dass man einfach Werbeformen besser ausspielen kann, weil man zielgerichteter Bescheid weiß über die Nutzergruppen?
Genau. Oder auch. Ich sehe das jetzt in letzter Zeit sehr, sehr viele Prozesse. Da wo viele Menschen interagieren, da gibt es gar nicht so eine dicke Daten Schicht, weil sehr viel. Das machen Menschen untereinander. Das sind Handelsbeziehungen, die über viele Jahre gewachsen sind. Man vertraut sich. Und das ist auch alles super. Und dann gibt es gar nicht so viele digitale Daten, die diesen Prozess abbilden. Auf einmal überlegt man Okay, wir würden gerne auch die Bestellung quantifizieren und das irgendwie in unserem Dashboard abbilden.
Ah, okay, nee, das geht gar nicht. Wir erheben viel zu wenige Daten, um das sinnvoll machen zu können. Da müssen wir mal gucken, wie wir das besser hinbekommen oder wie wir da bei diesem Prozess lückenloser mit Daten unterfüttern können.
In der Tat würde das schon recht. Die meisten Kunden sind nicht so okay. Was können wir jetzt mit Daten machen? Sondern die haben schon eine sehr konkrete Idee. Bis jetzt nur einen Fall, wo ich mich erinnere, wo der Kunde gar nicht wusste. Wusste nur, dass er viele Daten Punkte hat. Aber welche und was man damit machen kann, ist eher die Ausnahme. Das wundert mich ehrlich gesagt. Was ich aber sehr gut finde, dass man sich schon Gedanken darum macht und konkrete Vorstellungen hat.
Und in solchen Fällen helfen wir dann im Prinzip aufgrund der Erfahrungen der verschiedenen Projekte auch branchenübergreifend, dass man sagt Oh guck mal, das könnte man auch machen.
Und und wir haben grundsätzlich sehr gut, dass das Kunden sich schon damit beschäftigen mit den konkreten Anfragen.
Ja, wir können ja mal ein. Also ich habe ja ein Beispiel vorbereitet, was mir einfällt. Da ist ein Kunde auf uns zugekommen und hat gesagt, er hätte so ein Projekt, aber er hätte niemanden, der sich dieser Sache annehmen könnte. Und er hatte einen riesen Topf von Daten und würde gerne wissen, ob dieser Topf gewisse Gemeinsamkeiten und Muster enthält. Ich versuche das jetzt möglichst abstrakt zu formulieren und dieser Kunde hat uns 1000 Datenpunkte zur Verfügung gestellt. Und das, was natürlich wenig ist, aber hat gesagt Okay, meine Daten sehen ungefähr so aus ich kann euch jetzt noch nicht alles geben, aber wie würdet ihr das Thema denn angehen?
Er hat uns quasi getestet und du hast dann daraufhin geguckt Okay, wir können einen Generator entwickeln, der weitere Datenpunkte erzeugt, die ungefähr in das Muster dieser 1000 übergebenen Zeilen fällt. Und auf Basis dieser simulierten Zeilen haben wir dann so eine Aggregation Pipeline aufgesetzt, um in Echtzeit verschiedene Eigenschaften dieser Daten zusammen zu mappen. Es ging quasi um Clustering. Die Daten sollten auf gewisse Cluster untersucht werden und Gemeinsamkeiten. Und das wurde innerhalb von einer Woche realisiert und dem Kunden gezeigt.
Eben mit diesen beschränkten Daten im Rahmen einer Präsentation auf einem Laptop. Aber schon funktionsfähig im Sinne von Wir haben eine Mini Architektur, die eben diese 1000 oder wir haben dann wie viele Zeilen hattest du generiert, zehntausende Zeilen oder so was. Das konnte dann eben verarbeitet werden und auch ein ansprechend visualisiert werden, sodass man schon direkt sehen konnte. Ja, genau das ist das, was wir wollen und das schafft auf jeden Fall einen großen Wert, wenn wir das auch auf unsere ganzen Daten Bereich, der ja immerhin 40 Milliarden Zeilen ungefähr pro Tag umfasst, wenn wir es darauf anwenden können.
Das geht natürlich nicht auf dem ein Laptop, sondern auf eine andere Infrastruktur auf. Letztlich geht es mit der Cloud Laptop, das man super schön okay ist, weil man dadurch dann zeigen konnte okay, wir haben das Problem verstanden und wir konnten das dann ja auch in der Zeit danach deutlich nach oben skalieren, haben diese Auswertung gemacht, haben diese Cluster bauen können und. Dem Unternehmen ist dadurch ein komplett neues Produkt entstanden über die Wochen und Monate danach. Das war super schön, das zu sehen und ist eigentlich so ein Paradebeispiel für ein gelungenes Big Data Projekt, weil auch bis zum heutigen Tag, wenn die Daten mehr und mehr der Kunde ist.
Ein großes internationales Unternehmen bekommt Zugriff auf mehr und mehr Daten, die dann eben diese Clustering Algorithmen noch weiter zusammen mappen können und die den Wert dieser ganzen Applikation noch weiter steigert. Auf jeden Fall.
Dieses verstanden zu haben, was der Kunde meint oder sein Problem verstanden zu haben, das ist auch ein ganz, ganz wichtiger Faktor. Es ist ein komplexes Gebilde, wenn man so einem Unternehmen und Daten Problematik im Masiar an sich kann man nichts triviales und das Problem zu beschreiben ist teilweise auch nicht trivial, um das Problem zu verstehen ist auch nicht trivial. Und wenn man nicht aus derselben Domäne kommt und dann redet man auch oft aneinander vorbei. Und ich habe für mich gibt es nichts schlimmeres als der Kunde erklärt mir irgendwas, was er haben will oder was er für ein Problem hat und die mich drei Monate, vier Monate, ein halbes Jahr, ein Bau, dem eben was.
Und dann stellt man fest, man hat aneinander vorbeigeredet, Wasserfall. Das versuchen halt auch zu vermeiden. Wasserfall genau. Schnelle Iteration, schnelle Hypothesen, schnelle Experimente, die man, die man überprüft, um einfach beidseitig dieses Vertrauen zu entwickeln. Okay, hat mich verstanden und ich habs verstanden.
Das ist auch super wichtig und dass man offenen Dialog hat. Also ich kann mich an ein Projekt erinnern. Da hat ein Kunde uns gefragt, ob wir eine gewisse Problemstellung analysieren können. Das war jetzt letztes Jahr im Sommer und wir haben nach 6 Wochen oder 7 Wochen gesagt, das geht mit den Daten, die du erhebst nicht. Also es sind einfach nicht genug Daten vorhanden, oder? Die Frequenz der Daten ist so groß, dass wir diese Fragestellung eben nicht mit hinreichender Genauigkeit beantworten können.
Wir konnten sie zwar beantworten, aber das man nicht so genau, dass man da jetzt richtig tiefergehenden Wert daraus gezogen hat, dann ist das ja auch okay, wenn man sagt Okay, da geben die Daten halt nicht her. Das ist oftmals ein Forschungsprojekt. Wenn du die und die und die Daten so und so erheben würdest, würde das funktionieren. Oder wenn du einfach noch zwei, drei Jahre wartest und dann so viele Daten vorhanden sind, dass sich eben Muster ergeben, dann funktioniert das auch im Top of Concept Partner bewiesen.
Oder dass es geht oder auch beweisen, dass es nicht geht.
Lass uns vielleicht noch mal auf das Skillbyte Vorgehens Modell eingehen. Was? Wir haben das ja in vier Stufen unterteilt. Ich habe eben schon gesagt Stufe 1 ist dieses Vorgespräch. Was hat der Kunde für Fragestellungen? Oft sind wir dann auch gefragt, um zu zeigen Was gibt es denn für Technologien heute, die einsatzbereit sind? Also zur Datenverarbeitung sowohl im eigenen Rechenzentrum als auch in der Cloud werden wir häufig gefragt Welche Lösungen gibt es? Visualisierungen sind ein ganz großes Thema, also Tools wie Tableau, Microsoft, Power, BI oder selbstgebaute Dashboard, zum Beispiel mit dem sogenannten EQ.
Hastig. Was kann man mit den Daten machen? Wie kann man die Daten abtransportieren? Welche Datenbanken, Technologie gibt es also? Klassische Erde, BMS, Nohl, SQL Wir haben einen Kunden, der hat eine der, für den er mal eine in Memory Technology verwendet, in einer selbstgeschriebenen Anwendung. Ja, das ganze Aufklären über die technischen Möglichkeiten, die heute bestehen. Letzte Woche hatte ich ein Gespräch, da ging es viel um Message Broker, also Apache, Kafka, um genau zu sein Wie viele Nachrichten kann ich in meinem Netzwerk verteilen?
An wie viele Konsumenten Anwendungen und wie weit skaliert das mit einer ganz heterogenen System Landschaft? Also dass man da erst mal den ich sag mal State of the art wiedergibt und sagt das und das und das und dass diese Möglichkeiten bestehen, da gibt es STANDARD Lösungen für, da kann man sehr schnell hinkommen und dann eben die individuellen Probleme des Kunden. Dann versucht darauf abzustellen. Also das ist so der Scope des Vorgespräch und natürlich auch von unserer Seite im Verständnis zu schaffen Was möchte der Kunden, was will er überhaupt, was will er erreichen?
Genau dann der zweite Punkt, da hast du eben schon angesprochen, ist sozusagen die die Kunden Anamnese oder Projekt Anamnese. Wo steht der Kunde heute? Also welche Systeme hat der Kunde bereit zum Einsatz? Bei Big Data Projekten muss man wissen, dass sind oftmals Großunternehmen, die eben auch über sehr viele Daten verfügen. Bei kleineren Unternehmen lohnt sich das noch oft nicht so oder die haben einfach nicht so viele Daten, dass man quasi schaut. Im zweiten Schritt Wo steht der Kunde heute?
Welche Technologien hat er bereits im Einsatz? Welches Know how hat auch das Team des Kunden? Das ist ja auch ganz wichtig, dass wir da nicht was hinstellen, was dann hinterher keiner mehr erwarten kann und pflegen kann. Welche Geschäftsmodelle erzeugen für den Kunden Sinn vor dem Hintergrund seiner bestehenden Systeme, seiner bestehenden Datenformate auch und seine bestehenden Teams und den Skills? Ein ganz großes Thema sind auch Datenschutz Anforderungen. Also bei vielen Kunden ist es gar nicht möglich alles in der Cloud zu prozessieren oder mit sehr großer Unsicherheit behaftet, weil die nicht wissen dürfen wir das.
Wir dürfen das nur machen, wenn das Recht. Ob auch in Europa steht oder gar nur in Deutschland und der tierisch Angst, dass die Daten da abgezogen werden, was ich auch nachvollziehen kann. Deshalb gibt es auch immer wieder das Thema von Datenverarbeitung im eigenen Rechenzentrum.
Und dann guckt man beim Kunden drauf welche zeitlichen Anforderungen hat das Projekt denn? Oder bestehenden an die Datenverarbeitung. Also reicht es im Bachelor auf einmal nachts diese Reports zu generieren? Kann man das in kurzen Intervallen machen, beispielsweise jede Stunde nur real time oder eben real time Datenverarbeitung?
Das Thema Technologie spielt eigentlich meines Erachtens eine untergeordnete Rolle, weil skalieren kann man immer. Genau das heißt, das Problem an sich der großen Datenmengen kriegt man genug. Das ist einfach eine Frage. Der Ressourceneinsatz, also in welcher Form? Die liegen Daten vor. Wie muss ich die Daten aufbereiten, normalisieren, reinigen, Duplikate entfernen, zusammenbringen? Was ist das, was Zeit frisst? Aber welche Technologie? Ich bin eher der Mann und wenn ich diese LifeSite Kette erkläre, dann habe ich eine Folie, wo dieser aufzeichnen und von Software drin abgebildet ist.
Also bauen die blauen Bildrand und so weiter. Das ist so eine Schleife. Bei der Box und drumherum in dieser Folie sind irgendwie ungefähr 400 kleine Icons mit verschiedenen Tools und es gibt halt für jeden Einsatzbereich und das ist ja von Kunde zu Kunde unterschiedlich. Gibt es halt eine gewisse Anzahl an oder Kombinationen von tut sie halt zusammenpassen. Und die Kunst von uns Beratern ist es ist genau diese Kombination herauszusuchen. Das passt am besten zu dir, zu deinem Geist. Bei Big Data gibt es allerdings auch ein Problem, aber was wir auch versuchen beim quasi zu lösen oder bzw.
zu erklären, ist also einmal, dass Technologie eigentlich eine untergeordnete Rolle spielt. Da soll man sich keine Gedanken machen. Das kriegen wir auf jeden Fall irgendwie hin, aber das kann man im Prinzip sagen. Es gibt diese diese drei Felder, also konsistent sehr praktischen Tolerance. Und du kriegst immer gleichzeitig maximal zwei von denen hin. Also es ist halt immer irgendwo ein Trade off und je nachdem, was du von Use Case hast, passen die zwei besser zu dir oder wie zwei.
Und das ist das einzige, was ich technisch in so einem Gespräch vielleicht nicht beim ersten Mal versuchen würde zu erklären. Also was die Trade off sind, was das bedeutet. Aber grundsätzlich ist die Technik kein Thema, oder? Wir können das ja ganz plastisch machen. Also das Cap Theorem, Konsistenz oder Konsistenz wäre halt zum Beispiel, wenn im Bereich Finanztransaktionen, wenn man sich bewegt, dann ist es natürlich super wichtig, dass nicht zwei Systeme einen unterschiedlichen Stand haben.
Also eine Transaktion wird entweder komplett ausgeführt oder sie bricht mit einem Fehler ab und wird dann eben nicht ausgeführt. Dann würde man auf jeden Fall sagen Okay, wir brauchen diese Konsistenz Sie und wir können vielleicht mit einem Trade off bei Ability leben. Das heißt, wenn das Hauptsystem nicht da ist, das führende System, dann würden die angeschlossenen Geräte Geldautomaten oder so würden dann einen Fehler bekommen. In manchen Bereichen ist es aber nicht gewünscht. Dann würde man sagen, wenn Ability ist super wichtig, z.B. bei einer Rekombination Engine.
Also wenn du Amazon Produkte vorgeschlagen bekommst oder andere Produkte vorgeschlagen bekommst, dann sagt man da ist es nicht so wichtig, dass ich den allerletzten Stand habe von dem Kunden, sondern ich will lieber eine Antwort liefern, als auf jeden Fall eine Station liefern. Auch wenn das das Netzwerk gerade unterbrochen ist zwischen denen zwischen den Daten Banknoten, dann gebe ich halt eine alte Antwort zurück. Dann ist es nicht die neueste Rekombination, aber die von gestern wird noch hinreichend genau sein.
Dann kann man das machen. Das Ganze bei Finanzdienstleistungen Transaktionen. Solltest du das nicht machen, dass du den Kontostand von gestern zeigst oder einfach nimmst? Genau, also oftmals aus der Branche des Kunden oder dem Einsatzzweck des Systems ergibt sich dann schon die genau weiß man schon, welchen Trade of man eingehen kann und welchen nicht? Was ich noch ganz wichtig finde bei Phase 2 also Anamnese wo steht der Kunde ist Du hast es schon gesagt. Technologisch ist das oft gar nicht so das Problem, aber organisatorisch habe ich schon mehrfach erlebt.
Jetzt müssen natürlich viele Abteilungen miteinander sprechen, die auf einzelnen Datenbeständen sitzen, auf einzelnen Daten, Silos. Diese Daten müssen zusammengelegt werden. Jetzt ist die Frage Wer ist denn der Herr über die Daten? Also das sind einfach diese politischen Spielchen oder diese organisatorischen Probleme, die daraus erwachsen. Oh, wir müssen jetzt alle irgendwie zusammenarbeiten. Wer verantwortet das denn? Das waren doch immer unsere Daten. Und jetzt geben wir die ab an eine andere Abteilung und jetzt melden die sich zurück und hätten gerne Änderungen.
Müssen wir die dann machen? Weil wir können ja mit unseren Daten arbeiten und so weiter. Also da sehe ich bei Großunternehmen jedenfalls die größere Herausforderung, dass man sagt Wir brauchen. Gesamt Daten Strategie und nicht mehr so einzelne Töpfe, das habe ich bei zwei Unternehmen erlebt, dass es so problematisch war, dass der richtige interne Barrieren aufgezogen wurden, dass Abteilung A gesagt hat Lieber Abteilung B, du kommst an meine Daten nicht dran. Also da muss dann auch mal auf C Level Ebene die Entscheidung getroffen werden.
Nee, wir wollen aber, dass alle unsere Unternehmensbereiche die Daten nutzen können. Nun gut, nach der Anamnese, also wo steht der Kunde? Schauen wir uns eben ganz genau an Was ist denn das Zielbild des Kunden? Was möchte er erreichen in einer wunderbaren Welt, wenn er in die Hände klatschen könnte und würde sagen Okay, dieses Problem würde ich gerne so und so lösen. Dieses Zielbild möchten wir natürlich erreichen. Wie kommen wir dahin? Oftmals ist es so einige Ziele kann man sehr schnell erreichen.
Also das sind die sogenannten niedrig hängenden Früchte oder Quick Wins, wo man dann sagt Okay, das eignet sich super für so einen Ruf of Concept oder so oder für einen MVP. Da kommen wir relativ schnell hin und damit fangen wir erst mal an. Dann startet im Prinzip der Prozess der Implementierung. Wenn man das dann so machen würde und der kontinuierlichen Verbesserung. Also meistens verändert sich das Zielbild im Laufe des Projektes dann auch ein bisschen, wenn man dann sieht, welche Möglichkeiten man hat.
Man trifft vielleicht auf Probleme oder bekommt neue Datenquellen hinzu. Das ist sehr oft der Fall, dass während man etwas entwickelt, auf einmal neue Datenquellen erschlossen werden können. Oder es kommen Partner hinzu, die das System ebenfalls nutzen möchten, die dann noch neue Ideen einbringen. Also das Zielbild ist nicht ganz statisches, bewegt sich schon, aber natürlich kann man da sehr gut drauf hin entwickeln und das braucht man auch. Sonst weiß man ja gar nicht, was man treffen soll.
Damit sind wir quasi schon, also dritter step weg diese Zielbild Entwicklung. Der vierte Stepp ist dann die Umsetzung. Jetzt habe ich das quasi ein bisschen vorweggenommen. In der Umsetzung selber geht es dann eben darum, das Konzept umzusetzen. Wir machen es dann immer noch so, dass wir jede Woche so ein Mini Statusbericht an die Verantwortlichen im Projektverantwortlichen schicken. Wie was sind die Herausforderungen und was damit diese Woche gelöst? Was werden wir in der nächsten Woche angehen? Wo Arbeitsschritte, so dass man quasi Die Leute sind ja auch viel unterwegs.
Meist machen wir das. Dann gibt es den Bericht per E-Mail freitags abends, dass die Leute sich immer gut abgeholt fühlen und wissen, welchen Stand das Projekt gerade hat und wie sich alles entwickelt, was auch passiert, parallel zur Umsetzung. Die Ideen sprühen natürlich überall. Und ich sagte Ihnen, das Bild ändert sich so ein bisschen dynamisch. Das passiert natürlich auch bei der Umsetzung. Da muss man ein bisschen aufpassen, dass man nicht vom eigentlichen Proof of Concept in ein größeres Preview of Concept oder in ein fertiges Produkt abweicht, sondern dass man erst mal den Kurs hält, aber alle guten Ideen oder alle Ideen generell erst mal in so eine Art Backlog überführt.
Also so machen wir das, dass wir die Ideen dann erst mal ausformulieren und speichern, in ein Backlog speichern, priorisieren, dass sie dort ein bisschen abhängen können. Das ist ganz wichtig, weil manchmal, wenn man dann zwei Wochen später noch mal über die Idee drüber schaut, stellt man fest, dass was habe ich, was habe ich denn da gedacht? Das kann kann gelöscht werden. Aber an vielen Sachen, wo man häufiger noch drüber schaut und sagt Okay, nee, das ist wirklich ein interessanter Aspekt, den man ausarbeiten können.
Und das wissen die Unternehmen ja oft sehr genau. Dann können wir die noch ausformulieren und dann eben für die nächste Iteration, für den weiteren Sprint dann eben aufnehmen und gegebenenfalls umsetzen. Der Begriff des Continuous Improvement ist uns sehr ans Herz gewachsen, also dass wir den Prozess auf den Kunden anpassen und uns dann fortlaufend verbessern, dass der Kunde eine gute Performance von uns bekommt und wir uns so weit auf ihn einstellen, dass wir da auch sehr schnell das Zielbild erreichen können, um schnell Wertschöpfung liefern zu können.
Sehr wichtig in Schwerpunkt auch für mich. Ja, absolut.
Ich empfinde das auch als total befriedigend, wenn man dann sieht, wie diese Idee Fleisch wird, sozusagen. Also das ist ganz oft in Unternehmen so, dann zeigst du erst mal was und hast dann diese Informations Auswertung, die dann beispielsweise realtime ist, so nicht mehr jeden Tag im Bachlauf erzeugt wird. Und dann siehst du, siehst du sofort wie das Unternehmen anfängt anders zu arbeiten, dann haben die. Also ich kann das jetzt einfach so erzählen. Dann auf einem zweiten Monitor haben die die Nutzer oder die Stakeholder?
Haben denn diese Auswertung offen? Dann sehen sie sofort Ah okay, so und so sieht es Daten mäßig aus. Dann können wir jetzt das und das machen. Bietet das auch unserem Kunden noch an und das schaffen auf jeden Fall noch bis heute Abend, weil das sehe ich hier und das wussten die vorher gar nicht. Also aufgrund dieser zeitlich näheren Verfügbarkeit der Daten entsteht ein echter Mehrwert und das merken natürlich die Kunden auch sofort. Okay, wir können heute noch was bekommen.
Ne, das wär ja cool und ich finde das wunderschön sowas zu sehen. Und dann entstehen natürlich neue Fragen, auch auf der Seite des Masiar. Wenn du das jetzt noch so einbauen könntest, dann hätten wir doch eine Übersicht hier und dann könnte ich noch das sagen und das sagen. Dann ist man genau in diesem Prozess drin, wo man dann eben auch da ist das Backlog dann wichtig, dass man es erst mal aufnimmt und dann hinterher nochmal bewertet, weil nicht jede schnelle Idee ist toll oder ist es wert umgesetzt?
Werden, sagen wir mal so und der, dass man dann einfach sieht, wie das Unternehmen wächst und und die Leute ihre Arbeit besser machen können, das freut mich jedes Mal zu diesem Thema Continuous Improvement müssen wir unbedingt vielleicht mal eine eigene Podcastfolge machen, also hier kennen und lieben und und all diese Dinge, weil das auch in den Bereichen sehr, sehr wichtiges Thema ist. Learning Organization, das hängt alles zusammen und und Kultur und Mindset. Ich glaube, das ist auch ein sehr interessantes Thema.
Das ist ja fast schon eine Grundsatz Philosophie, wie man ja nicht nur im Unternehmen, sondern wie man sein eigenes Leben gestalten möchte. Dass man einfach sagt Dieser Weg der kleinen Verbesserung, wenn ich jeden Tag 0,1 prozent besser werde, ist das viel effizienter als wenn. Ich versuche halt immer diese riesen Verbesserung von heute auf morgen umzusetzen, dass ist diesen Technik Kram weglassen und Selbsthilfe Podcasts machen. Nein, ich komme nicht dazu das die Technologie zu sehr wir können mal eine sonder Folge machen.
Meinetwegen lassen wir wir gehen die ganze Zeit von Hypothesen und Tests und was die Kunden wollen lass ist doch mal gut machen und gucken was die Zuhörer sagen wollen. Sie werden Techniker oder so Continuous Improvement.
Ja ja.
Okay, das können wir gerne ausprobieren wie woanders auch.
Wir waren ja beim Thema Umsetzung und das ist ja auch eine technische Umsetzung, die wir machen. Natürlich beraten wir unsere Kunden, wenn sie es möchten, auch gerne in lebens philosophischen Fragen, aber dennoch würde ich sagen, dass unsere Kompetenz eher im Technologiebereich zu finden, allein schon in Bezug auf unsere Arbeit. Das ist ja auch eine Herangehensweise, wie man solche Projekte erfolgreich umsetzt.
Auf jeden Fall weiterlesen Das meine ich natürlich nicht völlig vom Thema losgelöst. Nicht natürlich nicht.
Verbesserung durch kleine Schritte nach dem Kaiserschnitt Prinzip oder auch Scrum ist ja. Ich will jetzt nicht sagen eine direkte Folge davon, aber geht ja ganz klar in die Richtung. Ich denke, das ist auch bei jedem Unternehmen mittlerweile angekommen, dass das einfach effizienter ist als diese langwierigen Planungsprozesse. Und am Ende bekommst du etwas, was du feststellst, was du vor drei Jahren hättest gebrauchen können, weil die Welt verändert sich halt immer schneller und wird globalisierter. Und ich glaube, der kann sich da vielleicht außer sehr langsam sich wandelnden Industrien und davon wird es wahrscheinlich nicht mehr so viele geben niemand leisten, diese riesen Planungszeit anzusetzen.
Also vielleicht gehen wir noch ein paar Beispiele für Big Data Produkte aus aktuellen skillbyte Projekten, also von Aufsätzen von Data Lakes in der Cloud, Automatisierung von Ettl Strecken innerhalb dieser Data Lakes. Also das kann man sich so vorstellen, dass gewisse Datenflüsse einfach automatisiert werden, entweder passiv oder mit Apache Spark. Um zwei Technologien mal konkret anzusprechen, eben auf Basis zu häufig des Systems wird das umgesetzt, dann bei Werbe Segmenten stellen wir oft Targeting bereit, dann agieren wir viele Daten Unternehmens kritische Daten um Dashboard bereitzustellen.
Eben das Verantwortliche sehen können. HW laufenden meine Kampagnen was für Reichweiten erziele ich denn? Ist das alles im Plan? Dann haben wir ein paar Prädikation Sachen umgesetzt, wo wir auf vergangene Daten geguckt haben und aktuelle Daten gucken und dann sagen okay, dann wird es wahrscheinlich in einer Woche, in drei Wochen, in einem Monat so aussehen, dass man so eine Art Vorkasse machen kann. Shantanu Diktion hatte ich eben schon mal angesprochen. Also da ging es im Speziellen darum, ich habe Kunden, die einen die regelmäßig bei mir kaufen, wann springen die, ab wann melden die sich an bei mir.
Es gibt das Wort des Customer Lifetime Value, also jeder der ein Abo hat bei einer Zeitung oder ein Mobilfunkvertrag, der meldet sich irgendwann an, hat diesen Vertrag für eine gewisse Zeit und meldet sich auch irgendwann wieder ab. Und das möchte man gerne voraussehen, damit man dort Marketingmaßnahmen ergreifen kann. Und dann haben wir auch verschiedene Individual Anwendungen umgesetzt. Ich sprach eben von dieser einen Memory Lösung. Da geht es auch darum, extrem viele Datenpunkte in kurzer Zeit zu clustern, um dann wiederum weitere Erkenntnisgewinn daraus zu ziehen und entsprechend Systeme anzusteuern, die diese Informationen benutzen.
Das war ein super spannendes Projekt, da kann ich leider nicht so viel drüber sagen, aber das war das war wirklich toll und umfangreich.
Ja, können Sie schon sagen, müssen dann aber die Zuhörer töten. Würde ich ungern. Ehrlich gesagt hast du noch was, was dir aus der Leber auf der Leber liegt oder was du noch sagen möchtest zum Thema Big Data. Ein ganz besonderes Schmankerl.
Nein, alles gesagt, was gesagt werden musste.
Alles gesagt, was gesagt werden musste. Was sind denn die größten Datenberge, mit denen du je zu tun hatte?
Vielleicht frage ich dich das noch mal die größten Datenberge.
Was ist die größte Datenmenge, mit der du bisher zu tun hattest?
Also das ist jetzt eine schwierige Frage für mich, weil ich ja wie gesagt eher aus der Programmierung und der Ecke komme. Da haben wir weniger mit großen Datenmengen zu tun. Deswegen kann ich jetzt mit keiner Zahl glänzen, wie jetzt alle vom Hocker haut. Die verarbeiten Mogwai ist ja okay. Mehreren Gigabyte oder 100 Gigabyte Bereich, die wir tagtäglich verarbeiten. Also in Bezug auf diesen sieben Ski-WM Systeme, wo bestimmte eine bestimmte Kategorie von Unternehmen aus all seinen Systemen Lokales aggregieren muss, um einfach auf Sicherheit, wenn irgendwas passiert, dass ein Admin nicht auf tausend Rechnern suchen muss, nach einigen weiteren Helm oder Zentrale gucken kann und sagen so was das passieren im System oder ist passiert.
Und da kommen schon ziemlich viele Log Files oder Datenmengen zustande und teilweise ist es ja schon eine Herausforderung all diese Daten nicht zu sammeln, weil. Auch technisch ist es eigentlich heutzutage kein Thema mehr, aber konsistent zu sammeln. D.h. Das hat aber eher strukturelle Probleme in den Lock, weil zum Beispiel Schwuppdiwupp bin ich dann in einem Projekt, wo ich berate, wie wieso lokal überhaupt aussehen muss, also welche Information man System übergreifend in das Lob schreiben, damit ich Beispiel hinterher wenn ein Kunde anruft oder mit dem Auditing stattfindet, ich sagen kann weil heutzutage wird ja alles in Microservices und so weiter gemacht.
Wie ist denn welchen Weg hat denn so ein Request genommen? Durch die verschiedenen Systeme? Das hat nichts mit Tracking IT, Lösungen usw. weiter. Das sind eher die Probleme und die Herausforderungen als jetzt hunderte Gigabyte oder was weiß ich auch bei Daten zu aggregieren und zusammen zu verarbeiten.
Also eher die Verfolgung von einzelnen Nachrichten und Log 2 Helm in einem komplexen System. Also ich habe jetzt letzte Woche in einem Kunden System geschaut, welche Daten wir verarbeiten und es sind nicht nur Daten von dem Projekt, sondern auch noch von anderen Projekten. Wobei uns das schon als größter und ist und das lag bei ich glaube 142 Terabyte komprimierten Log Daten und die sind schon mit einem Org Format, also coolem Kolumne Format und ich glaube diese Kompression runter komprimierten. Das ist so ein also schon Konglomeraten Terabyte, das genau 142 Terabyte komprimiert.
Ich weiß nicht zu welchem Kompression grad wenn man es entpacken würde, wäre es vielleicht doppelt so groß, vielleicht noch viel größer. Aber man kann bei solchen Datenmengen auch in den Data Leaks empfiehlt es sich auf jeden Fall so eine Lauflänge Kompression zu verwenden. Und das wird auch heute überall angeboten. Also die Systeme können quasi transparente Kompression haben. Das ist auch die CPU unterstützen das auch. Die haben ja diese Vector Extensions, so dass du sehr lange Daten Wörter dann einfach packen und entpacken kannst.
Das der Geschwindigkeits Verlust nicht so groß ist. Aber ja, das ist schon eine Menge Holz und das kann man auf gar keinen Fall mehr auf einem Rechner oder auf einem großen Server verarbeiten bzw. das würde so teuer werden, dass es dann wahrscheinlich unwirtschaftlich wäre. Deshalb gibt es eben diese Systeme wie Apache Adobe, wo man dann auf Commodity Hardware, also das ist schon Server, Hardware, echte Server, Hardware aber eben STANDARD Server Hardware dann horizontal skalieren kann, eben über verschiedene Knoten und darauf kann man dann Abfragen durchführen.
Die dauern auch eine Zeit, aber im Verhältnis zur Datenmenge geht das alles relativ zügig. Aber da versteht man dann auch, warum man eben diese Systeme braucht, weil das ist eigentlich nicht mehr handhabbar auf normalen Maschinen und da wirds dann auch spannend im Web. Bei E-Commerce fallen diese riesigen Datenmengen an. Bei Telekommunikations Providern, die jede Verbindung ja irgendwie abrechnen und in der Telefonrechnung überführen müssen, fallen diese Verbindung ein. Nicht jede Datenverbindung müssen die gucken. Reicht dein Datenvolumen noch aus oder hast du es quasi überschritten?
Bei mir wird Kilobyte genau steht auf meiner Telefonrechnung, wie viele Daten ich verbraucht habe. Um all das vorzuhalten ist ja eine Menge Infrastruktur nötig, die diese Rohdaten einsammelt und verarbeiten kann. Und das ist schon da. Kann man dann häufig in den Bereich, wo es ihm richtig Spaß macht, diese Caliban Lösungen auch dann zu implementieren und den Unternehmen so weiter zu helfen. Bedanke ich mich ganz herzlich bei dir Masiar.
Ich danke dir Maurice.
Ich bedanke mich auch bei unseren Zuhörern. Wie gesagt, wenn eine Frage oder Anregung aufgekommen sein sollte, gerne eine E-Mail an Podcast Skillbyte senden. Wir würden uns freuen über eine Bewertung von diesem Podcast oder ein Abonnement und schaut gerne auf unserer Webseite www. Skillbyte vorbei. Da gibt es oben im Menü einen Punkt Blog. Da findet ihr noch viele weitere interessante Artikel und auch ein Menü Podcast. Da findet ihr die weiteren Podcast, die wir bisher aufgezeichnet haben, zu ganz verschiedenen vorwiegend technologischen Themen.
Aber ihr habt gehört, Masiar möchte auch gerne eine Podcastfolge zum Thema Continuous Improvement machen. Das können wir ja auch einrichten. Kein Problem. Vielen Dank Masiar Danke fürs Wochenende auch. Ciao.