Schlagwort-Archive: Big Data

45 Techniques Used by Data Scientists

These techniques cover most of what data scientists and related practitioners are using in their daily activities, whether they use solutions offered by a vendor, or whether they design proprietary tools. When you click on any of the 45 links below, you will find a selection of articles related to the entry in question. Most of these articles are hard to find with a Google search, so in some ways this gives you access to the hidden literature on data science, machine learning, and statistical science. Many of these articles are fundamental to understanding the technique in question, and come with further references and source code.

Starred techniques (marked with a *) belong to what I call deep data science, a branch of data science that has little if any overlap with closely related fields such as machine learning, computer science, operations research, mathematics, or statistics. Even classical machine learning and statistical techniques such as clustering, density estimation,  or tests of hypotheses, have model-free, data-driven, robust versions designed for automated processing (as in machine-to-machine communications), and thus also belong to deep data science. However, these techniques are not starred here, as the standard versions of these techniques are more well known (and unfortunately more used) than the deep data science equivalent.

To learn more about deep data science,  click here. Note that unlike deep learning, deep data science is not the intersection of data science and artificial intelligence; however, the analogy between deep data science and deep learning is not completely meaningless, in the sense that both deal with automation.

Also, to discover in which contexts and applications the 40 techniques below are used, I invite you to read the following articles:

Finally, when using a technique, you need to test its performance. Read this article about 11 Important Model Evaluation Techniques Everyone Should Know.

The 40 data science techniques

  1. Linear Regression
  2. Logistic Regression
  3. Jackknife Regression *
  4. Density Estimation
  5. Confidence Interval
  6. Test of Hypotheses
  7. Pattern Recognition
  8. Clustering – (aka Unsupervised Learning)
  9. Supervised Learning
  10. Time Series
  11. Decision Trees
  12. Random Numbers
  13. Monte-Carlo Simulation
  14. Bayesian Statistics
  15. Naive Bayes
  16. Principal Component Analysis – (PCA)
  17. Ensembles
  18. Neural Networks
  19. Support Vector Machine – (SVM)
  20. Nearest Neighbors – (k-NN)
  21. Feature Selection – (aka Variable Reduction)
  22. Indexation / Cataloguing *
  23. (Geo-) Spatial Modeling
  24. Recommendation Engine *
  25. Search Engine *
  26. Attribution Modeling *
  27. Collaborative Filtering *
  28. Rule System
  29. Linkage Analysis
  30. Association Rules
  31. Scoring Engine
  32. Segmentation
  33. Predictive Modeling
  34. Graphs
  35. Deep Learning
  36. Game Theory
  37. Imputation
  38. Survival Analysis
  39. Arbitrage
  40. Lift Modeling
  41. Yield Optimization
  42. Cross-Validation
  43. Model Fitting
  44. Relevancy Algorithm *
  45. Experimental Design

Source: https://www.datasciencecentral.com/profiles/blogs/40-techniques-used-by-data-scientists

Machine Learning – Basics – Einsatzgebiete – Technik

Machine Learning, Deep Learning, Cognitive Computing – Technologien der Künstlichen Intelligenz verbreiten sich rasant. Hintergrund ist, dass heute die Rechen- und Speicherkapazitäten zur Verfügung stehen, die KI-Szenarien möglich machen. Ein Überblick.
 
  • Machine Learning hilft, Muster in großen Datenbeständen zu erkennen und daraus Erkenntnisse zu gewinnen
  • Die Einsatzszenarien reichen von der Spamanalyse über Stauprognosen bis hin zur medizinischen Diagnostik
  • Technische Grundlage ist eine Cloud-basierte Digital Infrastructure Platform

http://www.computerwoche.de/a/machine-learning-darum-geht-s,3330413
http://www.computerwoche.de/a/machine-learning-das-haben-deutsche-unternehmen-vor,3330418
http://www.computerwoche.de/a/machine-learning-die-technik,3330420

Künstliche Intelligenz und Machine Learning (ML) sind keine neuen Technologien, doch im praktischen Einsatz spielen sie erst jetzt eine wichtige Rolle. Woran liegt das? Wichtigste Voraussetzung für lernende Systeme und entsprechende Algorithmen sind ausreichende Rechenkapazitäten und der Zugriff auf riesige Datenmengen – egal ob es sich um Kunden-, Log- oder Sensordaten handelt. Sie sind für das Training der Algorithmen und die Modellbildung unverzichtbar – und sie stehen mit Public- und Private-Cloud-Infrastrukturen zur Verfügung.

Bildanalyse und -erkennung ist das wichtigste Machine-Learning-Thema, doch die Spracherkennung und -verarbeitung ist schwer im Kommen.
Bildanalyse und -erkennung ist das wichtigste Machine-Learning-Thema, doch die Spracherkennung und -verarbeitung ist schwer im Kommen.
Foto: Crisp Research, Kassel

 

Die Analysten von Crisp Research sind im Rahmen einer umfassenden Studie gemeinsam mit The unbelievable Machine Company und Hewlett-Packard Enterprise (HPE) der Frage nachgegangen, welche Rolle Machine Learning heute und in Zukunft im Unternehmenseinsatz spielen wird. Dabei zeigt sich, dass deutsche Unternehmen hier schon recht weit fortgeschritten sind. Bereits ein Fünftel setzt ML-Technologien aktiv ein, 64 Prozent beschäftigen sich intensiv mit dem Thema und vier von fünf Befragten sagen sogar, ML werde irgendwann eine der Kerntechnologien des vollständig digitalisierten Unternehmens sein.

Muster erkennen und Vorhersagen treffen

ML-Algorithmen helfen den Menschen, Muster in vorhandenen Datenbeständen zu erkennen, Vorhersagen zu treffen oder Daten zu klassifizieren. Mit mathematischen Modellen können neue Erkenntnisse auf Grundlage dieser Muster gewonnen werden. Das gilt für viele Lebens- und Geschäftsbereiche. Oftmals profitieren Internet-Nutzer längst davon, ohne über die Technologie im Hintergrund nachzudenken.

Das Spektrum der Anwendungen reicht von Musik- und Filmempfehlungen im privaten Umfeld bis hin zur Verbesserung von Marketing-Kampagnen, Kundenservices oder auch Logistikrouten im geschäftlichen Bereich. Dafür steht ein breites Spektrum an ML-Verfahren zur Verfügung, darunter Lineare Regression, Instanzenbasiertes Lernen, Entscheidungs-Baum-Algorithmen, Bayesche Statistik, Clusteranalyse, Neuronale Netzwerke, Deep Learning und Verfahren zur Dimensionsreduktion.

Die Anwendungsbereiche sind vielfältig und teilweise bekannt. Man denke etwa an Spam-Erkennung, die Personalisierung von Inhalten, das Klassifizieren von Dokumenten, Sentiment-Analysen, Prognosen der Kundenabwanderung, E-Mail-Klassifizierung, Analyse von Upselling-Möglichkeiten, Stauprognosen, Genomanalysen, medizinische Diagnostik, Chatbots und vieles mehr. Für nahezu alle Branchen und Unternehmenstypen ergeben sich also Gelegenheiten.

Moderne IT-Plattformen unterstützen KI

Machine Learning ist laut Crisp Research idealerweise Bestandteil einer modernen, skalierungsfähigen und flexiblen IT-Infrastruktur – einer „Digital Infrastructure Platform“. Diese zeichnet sich durch Elastizität, Automatisierung, eine API-basierte Architektur und Agilität aus. Eine solche Plattform ist in der Regel Cloud-basiert aufgesetzt und dient als Grundlage für die Entwicklung und den Betrieb neuer digitaler Anwendungen und Prozesse. Sie bietet eine offene Architektur, Programmierschnittstellen (APIs), um externe Services zu integrieren, die Unterstützung von DevOps-Konzepten sowie moderne Methoden für kurze Release- und Innovationszyklen.

Die Verarbeitung und Analyse großer Datenmengen ist eine Kernaufgabe einer solchen Digital Infrastructure Platform. Deshalb müssen die IT-Verantwortlichen Sorge tragen, dass ihre IT mit unterschiedlichen Verfahren der Künstlichen Intelligenz umgehen kann. Server-, Storage- und Netzwerk-Infrastrukturen müssen auf neue ML-basierte Workloads ausgelegt sein. Auch das Daten-Management muss vorbereitet sein, damit ML-as-a-Service-Angebote in der Cloud genutzt werden können.

Im Kontext von ML haben sich in den vergangenen Monaten auch alternative Hardwarekomponenten durchgesetzt, etwa GPU-basierte Cluster von Nvidia, Googles Tensor Processing Unit (TPU) oder IBMs TrueNorth-Prozessor. Unternehmen müssen sich entscheiden, ob sie hier selbst investieren oder die Angebote entsprechender Cloud-Provider nutzen wollen.

Einer der großen Anwendungsbereiche für ML ist die Spracherkennung und -verarbeitung. Amazons Alexa zieht gerade in die Haushalte ein, Microsoft, Google, Facebook und IBM haben hier einen Großteil ihrer Forschungs- und Entwicklungsgelder investiert sowie spezialisierte Firmen zugekauft. Es lässt sich absehen, dass natürlichsprachige Kommunikation an der Kundenschnittstelle selbstverständlicher wird. Auch die Bedienung von digitalen Produkten und Enterprise-IT-Lösungen wird via Sprachbefehl möglich sein. Das hat sowohl Auswirkungen auf das Customer-Frontend als auch auf das IT-Backend.

Niedrige Einstiegshürden in Machine Learning

Da die großen Cloud-Anbieter ML-Services und -Produkte in ihr Leistungsportfolio aufgenommen haben, ist es für Anwender relativ einfach, einen Einstieg zu finden. Amazon Machine Learning, Microsoft Azure Machine Learning, IBM Bluemix und Google Machine Learning erlauben einen kostengünstigen Zugang zu entsprechenden Diensten über die Public Cloud. Anwender brauchen also keinen eigenen Supercomputer, kein Team von Statistikexperten und kein dediziertes Infrastruktur-Management mehr. Mit ein paar Kommandos über die APIs der großen Public-Cloud-Provider können sie loslegen.

Anwender brauchen vor allem Hilfe bei der Datenexploration.
Anwender brauchen vor allem Hilfe bei der Datenexploration.
Foto: Crisp Research, Kassel

 

Sie finden dort unterschiedliche Machine-Learning-Verfahren sowie Dienste und Tools wie etwa grafische Programmiermodelle und Storage-Dienste vor. Je mehr sie sich darauf einlassen, desto größer wird allerdings das Risiko eines Vendor-Lock-ins. Deshalb sollten sich Anwender vor dem Start Gedanken über ihre Strategie machen. IT-Dienstleister und Managed-Service-Provider können ebenso ML-Systeme und Infrastrukturen bereitstellen und betreiben, so dass Unabhängigkeit von den Public-Cloud-Providern und ihren SLAs ebenso möglich ist.

Verschiedene Spielarten der KI

Machine Learning, Deep Learning, Cognitive Computing – derzeit kursieren eine Reihe von KI-Begriffen, deren Abgrenzung voneinander nicht ganz einfach ist. Crisp Research wählt dafür die Dimensionen „Clarity of Purpose“ (Orientierung am Einsatzweck) und „Degree of Autonomy“ (Grad der Autonomie). ML-Systeme sind derzeit größtenteils auf Einsatzzwecke hin entwickelt und trainiert. Sie erkennen beispielsweise im Fertigungsprozess fehlerhafte Produkte im Rahmen einer Qualitätskontrolle. Ihre Aufgabe ist klar umrissen, es gibt keine Autonomie.

Deep-Learning-Systeme hingegen sind in der Lage, mittels Neuronaler Netze eigenständig zu lernen. Simulierte Neuronen werden in vielen Schichten übereinander modelliert und angeordnet. Jede Ebene des Netzwerks erfüllt dabei eigenständig bestimmte Aufgaben, etwa das Erkennen von Kanten. Diese Information wird eigenständig an die nächste Ebene weitergegeben und fließt dort in die Verarbeitung ein. Im Zusammenspiel mit großen Mengen an Trainingsdaten lernen solche Netzwerke, bestimmte Aufgaben zu erledigen – etwa das Identifizieren von Krebszellen in medizinischen Bildern.

Deep-Learning-Systeme arbeiten autonomer

Deep-Learning-Systeme arbeiten also deutlich autonomer als ML-Systeme, da die Neuronalen Netzwerke darauf trainiert werden, selbständig zu lernen und Entscheidungen zu treffen, die von außen nicht unbedingt nachvollziehbar sind.

Als dritte Spielart der KI gilt das Cognitive Computing, das insbesondere von IBM mit seiner Watson-Technologie propagiert wird. Solche Systeme zeichnen sich dadurch aus, dass sie in einer Assistenzfunktion oder gar als Ersatz des Menschen Aufgaben übernehmen und Entscheidungen treffen und dabei mit Ambiguität und Unschärfe umgehen können. Als Beispiele können das Schadensfall-Management in einer Versicherung dienen, eine Service-Hotline oder die Diagnostik im Krankenhaus.

Auch wenn hier bereits ein hohes Maß an Autonomie erreicht werden kann, ist der Weg zu echter Künstlicher Intelligenz mit autonomen kognitiven Fähigkeiten noch weit. Die Wissenschaft beschäftigt sich aber intensiv damit und streitet darüber, ob und wann dieses Ziel erreicht werden kann. Derweil sind Unternehmen gut beraten, sich mit den machbaren Use Cases zu beschäftigen, von denen es bereits eine Menge gibt.

Im Zuge des Digitalisierungstrends kommt in vielen Unternehmen Analytics auf die Tagesordnung – und damit auch Machine Learning und Deep Learning. Jetzt geht es darum, den Datenschatz zu heben.
  • Viele Unternehmen haben Data Lakes mit strukturierten und unstrukturierten Daten aufgebaut. Jetzt gilt es, etwas daraus zu machen
  • Einsatzgebiete für Machine Learning sind etwa Prozessverbesserungen sowie eine bessere Kundenansprache und ein möglichst effizienter Support
  • In vielen Branchen ist der Abstand zwischen Vorreitern und Nachzüglern riesig

Die Phantasien und Visionen rund um die digitale Zukunft kennen derzeit keine Grenzen. Vollautomatisierte Produktionsstraßen, autonome Verkehrssysteme, intelligente digitale Assistenten – es vergeht kaum ein Tag, an dem nicht neue Szenarien diskutiert werden. Dadurch fühlen sich viele Firmen unter Druck gesetzt. Sie arbeiten am „digitalen Unternehmen“ und entdecken ihre Daten als Grundlagen für neue Geschäftsmodelle und Services. So gewinnt Analytics an Bedeutung – und mit der Analytics-Strategie kommen KI und Machine Learning (ML) auf die Tagesordnung.

Aus diesen Gründen beschäftigen sich Anwender mit Machine Learning.
Aus diesen Gründen beschäftigen sich Anwender mit Machine Learning.
Foto: Crisp Research

 

IT- und Digitalisierungsentscheider vermuten ein enormes Potenzial hinter dem Thema Machine Learning. Eine Umfrage, die das Analystenhaus Crisp Research unterstützt von The unbelievable Machine Company und Hewlett-Packard Enterprise (HPE) auf den Weg gebracht hat, zeigt, dass nur drei Prozent der knapp 250 Befragten ML für einen Marketing-Hype halten. Ein Drittel bezeichnet ML-Verfahren in begrenzten Einsatzbereichen als sinnvoll, sogar 43 Prozent sind überzeugt davon, dass ML ein wichtiger Aspekt künftiger Big-Data- und Analytics-Strategien wird.

Wie die Initiatoren der Studie feststellen, ist das kein überraschendes Ergebnis. Die meisten Unternehmen haben im großen Stil in Big-Data-Infrastrukturen und eigene Data Lakes investiert, um ihre Unternehmensdaten zusammenzuführen und auswertbar zu machen. ML ermöglicht einen hohen Automationsgrad in der Datenanalyse und hilft somit, den verborgenen Schatz zu heben. Daten gelten als großes Asset, doch den Beweis dafür haben viele Firmen noch nicht gebracht. Technologien und Use Cases rund um Machine Learning versprechen Abhilfe.

Immenses Innovationspotenzial

Immerhin 16 Prozent der befragten sehen ML sogar als neue „Kerntechnologie eines vollständig digitalen Unternehmens“. Das Innovations- und Gestaltungspotenzial scheint also immens, wenngleich viele Probleme rund um Datenqualität, Governance, API-Management, Infrastruktur und vor allem Personal den Trend noch bremsen.

Rund 34 Prozent der Befragten beschäftigen sich mit ML, weil sie ihre internen Prozesse in der Produktion, Logistik oder im Qualitätsmanagement verbessern wollen. Sie erheben beispielsweise Daten im Produktionsablauf, um ihre Fertigung optimieren zu können. Fast ebenso viele wollen Initiativen rund um die Customer Experience vorantreiben – etwa in E-Commerce, Marketing oder im Bereich der Portale und Apps. Sie versprechen sich davon beispielsweise eine personalisierte Kundenansprache, um Produkte oder Dienste zielgerichteter an den Konsumenten bringen zu können. Mit 19 Prozent ist die Gruppe derer, die Wartungs- und Supportleistungen optimieren wollen (Predictive Maintenance), etwas kleiner. Hinzu kommen Betriebe, die sich grundsätzlich mit neuen Technologien beschäftigen (28 Prozent) oder durch Berater und Analysten auf das Thema aufmerksam geworden sind (27 Prozent).

Elementar für selbstfahrende Autos

Das Nutzungsverhalten von ML ist nicht nur zwischen, sondern auch innerhalb der Branchen sehr unterschiedlich ausgeprägt. In der Automobilbranche etwa gibt es große Abstände zwischen den Vorreitern und den Nachzüglern. Für die Entwicklung und Produktion selbstfahrender Autos sind Bild- und Videoanalyse in Echtzeit sowie statistische Verfahren und mathematische Modelle aus Machine Learning und Deep Learning weit verbreitet. Einige Verfahren werden auch dazu verwendet, Fabrikationsfehler in der Fertigung zu erkennen.

Der Anteil der Innovatoren, die ML bereits in weiten Teilen einsetzen, ist in der Automobilbranche mit rund 20 Prozent am größten. Demgegenüber stehen allerdings 60 Prozent, die sich zwar mit ML beschäftigen, aber noch in der Evaluierungs- und Planungsphase stecken. So zeigt sich, dass in der Autobranche einige Leuchttürme das Bild prägen, von einer flächendeckenden Adaption aber nicht die Rede sein kann.

Status der Branchen bei der Einführung von Machine-Learning-Technologien
Status der Branchen bei der Einführung von Machine-Learning-Technologien
Foto: Crisp Research

 

Auch die Maschinen- und Anlagenbauer stecken noch zur Hälfte (53 Prozent) in der Evaluierungs- und Planungsphase. Ein knappe Drittel nutzt ML in ausgewählten Anwendungsbereichen produktiv und 18 Prozent bauen derzeit Prototypen. Weiter sind die Handels- und Konsumgüterfirmen, die zu 44 Prozent dabei sind, ML in ersten Projekten und Prototypen zu erproben. Das überrascht insofern nicht, als diese Firmen in der Regel gute gepflegte Datenbestände haben und viel Erfahrung mit Business Intelligence und Data Warehouses besitzen. Gelingt es ihnen, Preisstrategien, Warenverfügbarkeiten oder Marketing-Kampagnen messbar zu verbessern, wird ML als willkommenes Innovationsinstrument bestehender Big-Data-Strategien gesehen.

Gleiches gilt für die IT-, TK- und Medienbranche: Dort kommen ML-Verfahren etwa zum Ausspielen von Online-Werbung, Berechnen von Kaufwahrscheinlichkeiten (Conversion Rates) oder dem Personalisieren von Webinhalten und Einkaufsempfehlungen längst zum Einsatz. Bei den professionellen Dienstleistern spielen das Messen und Verbessern der Kundenbindung, der Dienstleistungsqualität und der Termintreue eine wichtige Rolle, sind das doch die wettbewerbsdifferenzierenden Faktoren.

IT-Abteilungen sind zuständig

Knapp 60 Prozent der befragten Entscheider gaben an, ihre IT-Abteilung sei federführend zuständig, wenn es um ML-Projekte gehe. Den Studienautoren von Crisp zufolge liegt das an der hohen technologischen Komplexität des Themas. Neben mathematischen und statistischen Skills ist demnach auch eine große Bandbreite an Fertigkeiten im Bereich der IT-Operations gefragt. Hinzu kommen die BI- und Analytics-Fähigkeiten, die hier oftmals angesiedelt sind.

Doch auch Fachabteilungen wie Logistik und Produktion sind mit im Boot, weil sie in der Regel die Prozessverbesserungs- und IoT-Szenarien vorantreiben. Die großen Mengen an Maschinen-, Produktions-, Logistik- sowie sonstigen Sensor- und Log-Daten müssen auf Muster und Korrelationen hin abgefragt werden – eine Aufgabe für Fertigung und Logistik.

Und schließlich sind auch Kundenservice und -support führende Instanzen, wenn es um die Einführung von ML geht. Sie wollen die personalisierte Kundeninteraktion vorantreiben und sammeln in ihren Bereichen die Text-, Bild- und Audiodaten, die das Potenzial für Analysen bieten. Interessant an der Umfrage ist indes, dass Marketing und Kommunikation von ML oft nichts wissen wollen, obwohl sie reichlich Einsatzszenarien hätten. Sie könnten etwa Kundenbeziehungen auswerten und die Kundenbindung verbessern, automatisiertes Medien-Monitoring vorantreiben oder das Social Web mit Sentiment-Analysen bearbeiten. All das findet aber relativ selten statt, was Crisp Research mit der traditionell „passiven, technologieagnostischen Rolle“ dieser Abteilungen begründet. Marketing- und Kommunikationsabteilungen treten demnach meist als „Anforderer“ und interne Kunden auf, nicht als diejenigen, die tiefer in Technologien einsteigen.

Welche Machine-Learning-Funktionen benötigen Unternehmen wofür? Und wann kommen welche Lernstile, Frameworks, Programmiersprachen und Algorithmen zum Einsatz? Meistens beginnen Firmen mit Bildanalyse und -erkennung.
 
  • Bild- und Spracherkennung sind die wichtigsten Anwendungen im Bereich Machine Learning
  • Geht es um die Plattformauswahl, wird die Public Cloud zunehmend wichtig
  • Grafikprozessoren setzen sich im Bereich Deep Learning durch

Wie die Analysten von Crisp Research im Rahmen einer umfassenden Studie gemeinsam mit The unbelievable Machine Company und Hewlett-Packard Enterprise (HPE) schreiben, gibt die Mehrheit der rund 250 befragten IT-Entscheider an, mit der Bildanalyse und -erkennung in das komplexe Thema Machine Learning (ML) einzusteigen. So werden beispielsweise in Industrieunternehmen Fremdkörper auf Förderbändern identifiziert, fehlerhafte Einfärbungen von Produkten entdeckt oder von autonomen Fahrzeugen Straßenschilder erkannt.

Diese Machine-Learning-Funktionen nutzen die Anwender.
Diese Machine-Learning-Funktionen nutzen die Anwender.
Foto: Crisp Research, Kassel

 

Wichtig sind ML-Verfahren auch zur Sprachsteuerung und -erkennung (42 Prozent). Eng damit verbunden sind Natural Language Processing und Textanalyse – also das semantische Erfassen von Sprachinhalten und Texten. Heute beschäftigen sich 35 Prozent der Unternehmen damit, Tendenz steigend. Hintergrund ist, dass konversationsbasierte Benutzerschnittstellen derzeit einen Aufschwung erleben.

Chatbots, Gesichtserkennung, Sentiment-Analyse und mehr

Machine Learning kommt außerdem bei rund einem Drittel der Befragten im Zusammenhang mit der Entwicklung digitaler Assistenten, sogenannter Bots zum Einsatz. Weitere Einsatzgebiete sind Gesichtserkennung, die Sentiment-Analyse und besondere Verfahren der Mustererkennung – oft in einem unternehmens- oder branchenspezifischen Kontext. Die Spracherkennung ist vor allem für Marketingentscheider interessant, da digitale Assistenten für die Automatisierung von Call-Center-Abläufen oder die Echtzeit-Kommunikation mit dem Kunden an Bedeutung gewinnen. Auch die Personalisierung von Produktempfehlungen ist ein wichtiger Use-Case.

Ein Blick auf die Nutzungsszenarien von ML-Technologien zeigt, dass Bildanalyse und -erkennung heute weit vorne rangieren, doch die Zukunft gehört eher der Sprachsteuerung und – erkennung, ebenso der Textanalyse und Natural Language Processing (NLP). Insgesamt werden ML-Technologien auf breiter Front an Bedeutung gewinne, auch etwa im Bereich der Videoanalyse, der Sentiment-Analyse, der Gesichtserkennung sowie beim Einsatz intelligenter Bots.

Schaut man auf die einzelnen Unternehmensbereiche, so wird deutlich, dass sich die für Customer Experience Management zuständigen Einheiten ML-Technologien vor allem im Bereich der Kundensegmentierung, der personalisierten Produktempfehlung, der Spracherkennung und teilweise auch der Gesichtserkennung bedienen. IT-Abteilungen treiben damit E-Mail-Klassifizierung, Spam-Erkennung, Diagnosesysteme und das Klassifizieren von Dokumenten voran. Die Produktion ist vor allem auf Prozessverbesserungen aus, während Kundendienst und Support ihre Diagnoseysteme vorantreiben und an automatisierten Lösungsempfehlungen arbeiten. Auch Call-Center-Gespräche werden bereits analysiert, teilweise auch mit der Absicht, positive und negative Äußerungen der Kunden zu erkennen (Sentiment-Analyse).

Auch die Bereiche Finance und Human Resources sowie das Management generell nutzen vermehrt ML-Technologien. Wichtigstes Einsatzgebiet sind hier das Risiko-Management sowie Forecasting und Prognosen. Im HR-Bereich werden auch Trainingsempfehlungen automatisiert erstellt, Lebensläufe überprüft und das Talent-Management vorangetrieben. Im zentralen Einkauf und dem Management der Lieferanten ist die Digital Supply-Chain-Verbesserung das Kernaufgabengebiet von ML-technologie. Vermehrt werden hier auch Demand Forecastings ermittelt, Risiken im Zusammenhang mit bestimmten Lieferanten analysiert und generell Entscheidungsprozesse digital unterstützt.

Machine-Learning-Plattformen und -Produkte

Geht es um die Auswahl von Plattformen und -Produkten, spielen Lösungen aus der Public Cloud eine zunehmend wichtige Rolle (Machine Learning as a Service). Um Komplexität aus dem Wege zu gehen und weil die großen Cloud-Provider auch die maßgeblichen Innovatoren auf diesem Gebiet sind, entscheiden sich viele Anwender für diese Cloud-Lösungen. Während 38,1 der Befragten Lösungen aus der Public-Cloud bevorzugen, wählen 19,1 Prozent proprietäre Lösungen ausgesuchter Anbieter und 18,5 Prozent Open-Source-Alternativen. Der Rest verfolgt entweder eine hybride Strategie (15,5 Prozent) oder hat sich noch keine Meinung dazu gebildet (8,8 Prozent).

Welche Cloud-Angebote zu Machine Learning sind im Einsatz?
Welche Cloud-Angebote zu Machine Learning sind im Einsatz?
Foto: Crisp Research

 

Unter den Cloud-basierten Lösungen hat AWS den höchsten Bekanntheitsgrad: 71 Prozent der Entscheider geben an, dass ihnen Amazon in diesem Kontext bekannt sei. Auch Microsoft, Google und IBM sind den Umfrageteilnehmern zu mehr als zwei Drittel im ML-Umfeld ein Begriff. Interessanterweise nutzen aber nur 17 Prozent der befragten die AWS-Cloud-Dienste im Kontext der Evaluierung, Projektierung sowie im produktiven Betrieb für ML. Jeweils rund ein Drittel der Befragten beschäftigt sich indes mit IBM Watson, Microsoft Azure oder der Google Cloud Machine Learning Plattform.

Die Analysten nehmen an, dass dies viel mit den Marketing-Anstrengungen der Hersteller zu tun hat. IBM und Microsoft investieren demnach massiv in ihre Cognitive- beziehungsweise KI-Strategie. Beide haben einen starken Mittelstands- und Großkundenvertrieb und ein großes Partnernetzwerk. Google indes verdanke seine Position dem Image als gewaltige daten- und Analytics-Maschine, die den Markt durch viele Innovationen treibe – etwa Tensorflow, viele ML-APIs und auch eigene Hardware. Schließlich zähle aber auch HP Enterprise mit „Haven on Demand“ zu den relevanten ML-Playern und werde von 14 Prozent der Befragten genutzt.

Deep Learning ist schwieriger

Bereits in den 40er Jahren des vergangenen Jahrhunderts wurden die ersten neuronalen Lernregeln beschrieben. Die wissenschaftlichen Erkenntnisse wuchsen rasch, die Anzahl der Algorithmen ebenfalls – doch es fehlte an der notwendigen Rechenleistung, um „Rückgekoppelte Neuronale Netzwerke“ in der Fläche zu nutzen. Heute sind diese unter dem Begriff Deep Learning in aller Munde, sie könnten Bereiche wie Handschriftenerkennung, Spracherkennung, maschinelles Übersetzen oder auch automatische Bildbeschreibungen revolutionieren.

Hintergrund ist, dass eine Präzision erreicht werden kann, die menschliche Fähigkeiten im jeweiligen Zusammenhang weit übertrifft. Dabei spannen neuronale Netze Ebenen von unterschiedlicher Komplexität auf. Je mehr Daten so einem neuronalen Netz zum Trainieren zur Verfügung stehen, desto besser werden die Ergebnisse beziehungsweise die trainierte Künstliche Intelligenz. So lernt ein System beispielsweise, wie anhand einer Computer-Tomografie Krebsgeschwüre diagnostiziert werden können, die das menschliche Auge nicht so einfach sieht.

Grafikprozessoren bieten die nötige Performance

Im Bereich des Deep Learning haben sich hardwareseitig Grafikprozessoren (GPUs) wegen ihre hohen Performance als besonders geeignet erwiesen. Förderlich waren außerdem die schier unbegrenzte Rechenpower, die sich aus den Public-Cloud-Ressourcen ergibt, sowie die Verfügbarkeit großer Mengen von Daten aus den verschiedensten Anwendungsgebieten. Unternehmen nutzen bereits Deep-learning-Algorithmen, im bestimmte Merkmal in Bildern aufzuspüren, Videoanalysen vorzunehmen, Umweltparameter beim autonomen Fahren zu verarbeiten oder automatische Sprachverarbeitung voranzutreiben.

In der Crisp-Umfrage geben 48 Prozent der Teilnehmer an, von Deep Learning zumindest gehört oder gelesen zu haben. Weitere 21 Prozent sind bereits in einer konkreten Evaluationsphase. Sie haben Erkenntnisse gesammelt und arbeiten nun an konkreten Prototypen, um ihr gewünschtes Einsatzszenario zu validieren. Weitere fünf Prozent sind sogar noch einen Schritt weiter und haben bereits Deep Learning im Einsatz. Vor allem Startups und Konzerne – auch hier wieder vor allem aus dem Automotive-Sektor – haben hier die Nase vorn.

Unter den Frameworks und Bibliotheken, die für das Implementieren von Deep-Learning-Algorithmen eine Rolle spielen, spielen unter anderem Microsofts „Computational Network Toolkit“ (CNTK) sowie jede Menge Public-Cloud- und Open-Source-Lösungen eine Rolle (eine Übersicht gibt es hier http://deeplearning.net/software_links/).

Machine Learning macht Analysen besser

Zuerst analysierten lernende Maschinen das Nutzerverhalten in Suchmaschinen, um passende Werbung anzuzeigen. Heute optimieren sie Verkehrsflüsse, die Stahlherstellung und planen die Flugzeugwartung. Experten von Allianz, Trip Advisor, GfK und Boeing erklären, wie ihnen Machine Learning hilft.

http://www.computerwoche.de/a/machine-learning-soll-analysen-besser-machen,3217540

Bei der Münchener Allianz Versicherung ist Andreas Braun, Head of Global Data and Analytics, zufrieden mit den Ergebnissen seiner Experimente mit den neuen Analytics-Ansätzen aus der künstlichen Intelligenz. „Wir haben bei uns ein Ökosystem aus verschiedenen Bestandteilen im Einsatz. Big-Data-Technologien und Machine Learning bieten uns bessere Möglichkeiten, mit unseren Daten umzugehen, und liefern konsistent gute Ergebnisse“, sagte er auf der Konferenz der Yandex Data Factory zum Thema „Machine Learning and Big Data“ in Berlin. Zum Beispiel im Gebäude-Management: Zusammen mit Studenten der TU München hat die Versicherung eine App entwickelt, die eine Vielzahl von Gegenständen über Sensoren vernetzt.

„Das System kalibriert sich selbst, lernt normales Verhalten im Haus, und kann so einen Einbruch von anderen ungewöhnlichen, aber unkritischen Vorfällen unterscheiden.“ Außerdem wollen die Experten die Bilderkennung weiter verbessern. Eingereichte Fotos sollen bei Versicherungsschäden automatisch durch Maschinen beurteilt werden.

Die Experten, die der russische Suchmaschinen-Anbieter Yandex nach Berlin eingeladen hatte, tauschten sich unter dem Motto „Business Challenges“ auch über die Schwierigkeiten und Risiken rund um Machine Learning aus. Jeff Palmucci, Director of Machine Intelligence beim Reiseportal Trip Advisor, schilderte, wie sein Unternehmen maschinelles Lernen in die Geschäftsprozesse implementiert. So hilft die Technik, Restaurants und Hotels automatisiert mit passenden Tags wie „romantisch“ oder „charmant“ zu versehen, damit Suchende schnell das richtige Angebot finden. Auch um Betrug etwa bei den Bewertungen rasch zu erkennen, setzt das Portal Machine Learning ein.

Menschliches Verhalten vorhersagen

Machine Learning stellt Unternehmen vor vielfältige Herausforderungen. Nicht alle Branchen eignen sich gleich gut, erklärte Jane Zavalishina, CEO der Yandex Data Factory: „Es geht vor allem darum, menschliches Verhalten vorherzusagen.“ Bei Ergebnissen, die auf Machine Learning basieren, könne man aber durch die hohe Komplexität und die großen Datenmengen nie genau nachvollziehen, wie sie zustande gekommen sind. In der Praxis müsse man mit den Empfehlungen experimentieren, um herauszufinden, ob sie der bisherigen Vorgehensweise überlegen sind. Das gehe aus ethischen und praktischen Gründen allerdings nicht immer.

Jane Zavalishina CEO, Yandex Data Factory „Viele Unternehmen befinden sich aber noch an dem Punkt, an dem sie versuchen, Big Data Analytics überhaupt zu verstehen.“
Jane Zavalishina CEO, Yandex Data Factory „Viele Unternehmen befinden sich aber noch an dem Punkt, an dem sie versuchen, Big Data Analytics überhaupt zu verstehen.“
Foto: Yandex

In Echtzeit Web-Inhalte zu personalisieren oder Vorhersagen zu treffen, ist für die russische Suchmaschine Yandex nichts Neues. Das Wissen des Konzerns, das aus der Suchtechnik und dem kontextuellen Einspielen passender Werbung entstanden ist, und die dafür entwickelten Algorithmen stellt sie seit 2014 auch extern zur Verfügung. Zunächst probierte das Tochterunternehmen Yandex Data Factory, das Firmensitze in Moskau und Amsterdam unterhält, die Techniken maschinellen Lernens in der Wissenschaft aus – zum Beispiel, um Big-Data-Probleme des europäischen Kernforschungszentrums CERN zu lösen.

Inzwischen besprechen die Datenexperten mit Firmen, die viele Kunden und große Datenmengen haben, wie sich deren Services, Prozesse und Produkte ver­bessern lassen. „Die Anwendungsmöglichkeiten für maschinelles Lernen in Unternehmen sind fast unbegrenzt“, sagte Zavalishina. „Viele Unternehmen befin­den sich aber noch an dem Punkt, an dem sie versuchen, Big Data Analytics überhaupt zu verstehen.“

Eine der ersten Firmen, die Wissen und Technologie von Yandex nutzte, war die russische Straßenverwaltungsbehörde Rosavtodor, die Vorhersagen zur Verkehrsdichte und zu Unfällen benötigte. Im Stahlwerk Magnitogorsk Iron and Steel Works optimieren heute Algorithmen die Stahlproduktion. Zu wenige Zusätze ergeben eine schlechte Qualität, zu viele treiben die Kosten in die Höhe. Bisher nutzten die Stahlkocher für ihre Mischungsvorhersagen komplizierte Modelle. Yandex Data Factory verwendete zur Optimierung historische Daten aus den zurückliegenden zehn Jahren. Vergleichsweise einfach scheint es dagegen, mit Machine Learning Websites zu optimieren und Online-Werbung auszusenden.

Business ist datengetrieben

„Wir sind ein komplett datengetriebenes Business“, sagt Norbert Wirth, Global Head of Data and Science beim Marktforschungsinstitut GfK, „Machine-Learning-Algorithmen sind für uns ein Werkzeug im Kanon mit anderen, das aber für die Vorhersage und für Klassifizierungsprobleme zunehmend wichtiger wird.“ GfK nutzt es derzeit vor allem für die Analyse von Social-Media-Daten und um Marktanteile und Marktperformance vorherzusagen.

„Wir setzen es ein, wenn nicht die Frage nach dem Warum entscheidend ist, sondern die Qualität der Vorhersage“, so Wirth. Sind Aussagen über eine Marke tendenziell eher positiv oder negativ? Und um welche Themen geht es? Bei kleineren Datenbeständen könne man das noch selbst herausfinden, wird es jedoch umfangreicher, seien die Algorithmen „extrem spannend – und sie werden immer leistungsfähiger“. Das sei kein Hype, sagt der Marktforscher, „Machine Learning wird an Bedeutung zunehmen. Mit wachsender Computerpower kann man damit jetzt wirklich arbeiten.“ Die eine Sache sei ein toller Algorithmus, die andere, ob man die dafür nötigen Maschinen auch am Start habe.

In Zukunft werden Analysten laut Wirth zusätzliche Daten verwenden, um Algorithmen zu trainieren und die Modelle leistungsfähiger zu machen. „Es geht in die Richtung, im Analyseprozess mit mehreren Datenquellen zu arbeiten. Natürlich mit solchen, die auch legal genutzt werden dürfen.“ Data Privacy sei ein sehr wichtiges Thema rund um Machine Learning – aber auch die Stabilität und die Qualität der Daten.

Der Flugzeughersteller Boeing nutzt Machine Learning, um seine Services und die interne Produktion zu verbessern, berichtete Sergey Kravchenko, President Russia and CIS von Boeing. Das Flugzeug 787 verfüge über mehr als zehntausend mit dem Internet verbundene Sensoren, die den Mechanikern am Boden schon während des Fluges melden, wenn zum Beispiel eine Lampe oder eine Pumpe ausgetauscht werden muss. So können Fluggesellschaften ihre Wartungskosten reduzieren und im Betrieb effizienter arbeiten.

Boeing arbeitet mit Big Data und Machine Learning, um den Fluggesellschaften mit den während eines Flugs gesammelten Daten zu helfen, Treibstoffkosten zu senken und die Piloten bei schlechtem Wetter zu unterstützen. Nun werden die Daten auch in der Produktion verwendet, um etwa für bestimmte Prozesse die besten Ingenieure zu finden. Daten der Personalabteilung würden genutzt, um zu verstehen, wie die Lebensdauer und die Qualität der Flugzeuge mit dem Training und der Mischung der Menschen im Produktionsteam korrelieren. Gibt es bei Prozessen, die aufwendige Nacharbeiten erfordern, Zusammenhänge mit den bereitgestellten Werkzeugen oder mit dem Team? Kravchenko will mit Big-Data-Analysen den gesamten Zyklus von Design, Produktion und Wartung verbessern.

Ein neues Big-Data-Projekt ist die Flight Training Academy, die 2016 eröffnet werden soll. Hier werden Daten der drei Flugsimulatoren gesammelt und ausgewertet, um die Gestaltung des Cockpits und das Design der Flugzeug­software zu verbessern. Kravchenko will seinen russischen Kunden auch anbieten, in Zukunft Daten auszutauschen und sie gemeinsam auszuwerten.

Experten müssen zusammenpassen

Die Fertigungsindustrie stehe bei der Anwendung von Machine Learning – verglichen etwa mit Telcos und dem Handel – noch am Anfang. Sie werde aber schnell von ihnen und auch von Firmen wie Amazon und Google, lernen. Wer Erfolg haben wolle, müsse die besten Flugzeug- und IT-Experten zusammenbringen. Das Problem: „Die kommen von verschiedenen Planeten.“

Die Zusammenarbeit kann dennoch gelingen – wenn sich alle auf eine gemeinsame Terminologie einigen. „Die Datenexperten müssen etwas mehr von Flugzeugen und Airlines verstehen und die Flugzeugspezialisten mehr über Data Analytics lernen. Sie müssen sich die Werkzeuge teilen, sich gegenseitig vertrauen und ein gemeinsames Team aufbauen“, sagt der Flugzeugbauer. Ein weiteres Problem sei die Relevanz der Daten. „Hier muss die Industrie ihre riesigen Datenmengen anschauen und entscheiden, welche Daten wirklich wichtig sind, um bestimmte Probleme zu lösen. Das ist nicht einfach, dafür brauchen wir Zeit, Trial and Error, und wir müssen von anderen Branchen lernen.“ Die richtige Auswahl der Daten und die Interpretation der Ergebnisse seien dabei wichtiger als der Algorithmus selbst.

Tech Trends to Watch

It’s not just about robots. These seven other technologies will transform the future of work.

Advances in robotics and artificial intelligence aren’t the only tech trends reshaping the future of work. Rather, they are among the most visible of a confluence of powerful overlapping developments that strengthen, reinforce, and accelerate each other. The combination of these forces has led analysts to speak of a new era in the evolution of the global economy. Below, a primer on seven other new technologies driving that transition:

 

Digitization

One of the most remarkable and durable predictions about the pace of technological change in the modern era is Moore’s Law, the observation that the number of transistors on an integrated circuit doubles approximately every one or two years. Moore’s Law gets its name from Gordon Moore, co-founder of Intel, who first articulated the idea in 1965. Initially, Moore projected the number of transistors packed onto a silicon wafer to double annually for another decade. In 1975, he revised his estimate to doubling every two years and guessed it might hold a decade longer. In fact, Moore’s rule of thumb has held true for more than five decades and is used to guide long-term planning throughout the industrialized world. The latest Intel processor contains about 1.75 billion transistors compared to half a million compared to 2,300 transistors on the first microchip Intel sold commercially back in 1971.

Many experts think the physics of metal oxide technology will make it impractical to shrink transistors after around 2020. But even at a slower rate, the implications of such extraordinary gains in our ability to process and store data are far-reaching. If the invention of the microchip was the key technological breakthrough that unleashed the “Third Industrial Revolution”—destroying jobs in a slew of sectors including media, retail, financial, and legal services—unrelenting exponential advances in computing power have facilitated other profound new technological developments that now define the Fourth Industrial Revolution.

 

The Internet of Things

Smaller, faster transistors have made it possible for us to embed sensors and actuators in almost every imaginable object—not just computers, but also machines, hand-held gadgets, home appliances, cars, roads, product packaging, clothing, even humans themselves. Advances in mobile and wireless technologies have made it possible for all those “things” to exchange data with each other creating, in effect, an “Internet of Things.” This network of digitally enabled things has grown at such a staggering pace that, in data terms, it dwarfs the Internet that we use to connect with each other. Cisco predicts that by 2020, the number of connected things will exceed 50 billion—the equivalent of six objects for every human on the planet.

The real significance of the Internet of Things lies not in the profusion of data-gathering sensors but in the fact that these sensors can be connected, and that we can evaluate and act on the data collected via this new digital infrastructure in real time no matter what source it comes from or form it assumes. Suddenly every aspect of our lives can be made “smart.”

 

Big Data

Being able to collect loads of data and knowing how to analyze and interpret it are very different propositions. Today, more data crosses the Internet every second than were stored in the entire Internet just 20 years ago. Large companies generate data in petabytes—a quadrillion bytes, or the equivalent of 20 million filing cabinets worth of text. Gartner, a technology consultancy, definesBig Data in terms of “three Vs”: volume, velocity, and variety.

As the Economist put it, “Today we have more information than ever. But the importance of all that information extends beyond simply being able to do more, or know more, than we already do. The quantitative shift leads to a qualitative shift. Having more data allows us to do new things that weren’t possible before. In other words: More is not just more. More is new. More is better. More is different.”

Big Data will not only provide valuable new insights into consumer behavior, but will also change the way we work in all sorts of ways. It could change the hiring process, for example, and many employers are already using sensors and software to monitor employee performance and, indeed, their every move. In theory, Big Data can also work the other way, enabling prospective employees to ferret out employers who treat their workers badly. But my guess, for what it’s worth, is that Big Data will help tilt the balance of power decisively in favor of companies at the expense of workers.

 

Cloud Computing

What we have come to call “the cloud” is made up of networks of data centers that deliver services over the Internet. Unlike stand-alone computers, whose performance depends on the speed of their processor chips, computers connected to the cloud can be made more powerful without changes to their hardware. TheEconomist has called the shift to the cloud “the biggest upheaval in the IT industry since smaller, networked machines dethroned mainframe computers in the early 1990s.”

This shift will only accelerate as Moore’s Law comes to an end. Firms will upgrade their own computers and servers less often and rely instead on continuous improvement of services by cloud providers.

The clear leader in cloud computing is Amazon, which launched a separate cloud business, Amazon Web Services, in 2006. Today AWS boasts more than a million customers and offers a myriad of different services including encryption, data storage and machine learning. Other players include Google, Microsoft, Alibaba, Baidu and Tencent. These firms look well-positioned to disrupt traditional sellers of hardware and software. For small businesses, meanwhile, being able to purchase computer power, storage capacity, and applications as needed from the cloud will help lower costs, boost efficiency, and make it easier to deliver results quickly.

 

Self-driving Vehicles

Google surprised everyone with its 2010 announcement that it had developed a fleet of seven “self-piloting” Toyota Prius Hybrids capable of navigating public roadways and sensing and reacting to changes in the environment around it. Today, the idea of “autonomous vehicles” no longer feels like sci-fi fantasy. Audi, BMW, GM, Nissan, Toyota, and Volvo have all announced plans to unveil autonomous vehicles by 2020. Some experts estimate that by that year there could be as many as 10 million self-driving vehicles on the road.

The death of a Tesla driver using “autopilot” technology this past May marked the first fatality for self-driving cars and has raised questions about the safety of autonomous vehicles and, at the very least, highlighted the need for a new legal framework to sort out questions of liability. Still, governments have strong incentives to encourage the adoption of self-driving vehicles because of their potential to ease urban congestion and drastically reduce public speeding on roads, highways, and parking places. KPMG predicts all the technological and regulatory components necessary for widespread adoption of autonomous vehicles could fall into place as early as 2025. The employment implications of that shift are huge: according to data from the U.S. Census Bureau, truck, delivery, or tractor driver is the most common occupational category in 29 of the 50 American states.

 

 The Platform Economy

The widespread use of autonomous vehicles will have an even greater impact when paired with services like Uber and Lyft, which create online platforms for independent workers to contract out specific services to individual customers. KPMG estimates that combining autonomous vehicles in Uber or Lyft-like arrangements could reduce the number of cars in operation by as much as 90 percent.

The power of online marketplaces is not limited to the transportation sector. Online task brokers like TaskRabbit, Fivver, USource, and Amazon’s Mechanical Turk have given rise to a new model of work that has been called the “gig economy,” the “platform economy,” or “sharing economy.” Such platforms create a new marketplace for work by unbundling jobs into discrete tasks and connecting sellers directly with consumers. They make it possible to exchange not just services, but also assets and physical goods, as in the case of Airbnb, eBay, and Alibaba.

A recent study by the JPMorgan Chase Institute found that, as of September 2015, nearly 1 percent of U.S. adults earned income in via gig economy—up from just 0.1 percent of adults in 2012.

Many experts extol the virtues of the gig economy, pointing to the gig workers’ freedom to choose their hours and work from home. But these more flexible arrangements have a dark side. In many economies, particularly the U.S., employers shoulder the burden of providing health insurance, compensation for injury on the job, and retirement benefits. Freelancers have to take care of all those things on their own. While some highly talented stars will thrive as independent contractors, on balance, the gig economy, like advances in robotics, AI, and Big Data, gives employers the upper hand.

 

3D Printing

3D printing, sometimes called “additive manufacturing,” is often mentioned among the technologies that will change the way we work. Proponents predict that in the not-too-distant future, 3D printers will be able to manufacture everything from auto parts to shoes to human organs. Some think 3D printing will lead to wholesale “restoring” of manufacturing from low-wage economies like China back to advanced economies in the West, and might ultimately eliminate millions of manufacturing jobs.

But the range of products that can be produced cost-effectively with 3D printers remains relatively limited. 3D parts aren’t as strong as traditionally manufactured parts. Generally speaking you can only print in plastic, and the plastic required for 3D printing is expensive—meaning that it makes little sense to use the technology to produce large items on a mass scale. Programming and computer modeling necessary to print unique items is time-consuming and expensive. Count me among the skeptics. Still, even if the impact falls short of the rhetoric, 3D printing is another new technology that seems more likely to eliminate jobs than create new ones.

http://bento.hult.edu/other-tech-trends-to-watch