Konzeption eines Open Source SOCs (Security Operations Center)
1. Splunk: Installation, Konfiguration, Analyse und Anbindung an Input-Quellen, Erstellung von Splunk-Analyse- und Visualisierungs-Use Cases mit SPL (Search Processing Language).
2. Zukunftsvision der SOC-Architektur erstellt auf Basis von Apache Metron + Kafka + Spark + Elas-tic/ELK Stack (ElasticSearch, LogStash, Kibana) und Konzeption ihrer Komponentenarchitektur - möglichst mit Open-Source-Tools, um Kosten zu sparen. Dazu viele konkrete Vorschläge zur Ver-besserung des SOCs (Security Operations Center), Erstellen einer neuen SOC-Architektur mit KI-Elementen: Big Data/Data Science Ansatz zur Angriffs-/Malware-/APT-Erkennung mit Machine Learning und Fokus auf False-Positives-Reduzierung. Visualisierungskonzept zu Angriffs-Verdachtsfällen mit den jeweiligen Security-Kontexten per Design Thinking.
3. Aufsetzen + Starten des agilen Open Source SOC Projekts: Strategische Planung, Coaching: Zu-nächst SAFe + Design Thinking zur Beantragung der Projektfinanzierung, dann vereinfachte Durchführung als Scrum-Prozess; Coaching zur Verbesserung der Produktivität und Zusammenar-beit.
4. Recherche, Test und Analyse der führenden Open Source SIEM/SOC Systeme: Apache Metron / HCP (Hortonworks Cybersecurity Platform), Apache Spot, dataShark, Alienvault OSSIM, Graylog, SIEMonster, Hunting ELK (HELK), RockNSM, Wazuh, MozDef, OSSEC, Prelude OSS, Snort, Quad-rantSec Sagan, Suricata, OpenStack Vitrage.
5. Requirements Engineering, Use Case 2.0 Engineering der SIEM-/SOC-Features allgemein und im Bahnkontext mit Walking-Skeleton-Ansatz. Analyse der Kosten-/Nutzen-Aspekte der Use Cases und deren Abhängigkeiten als Input für agiles Kunden-Wert-basiertes Produktmanage-ment/Product Owner Tätigkeiten.
6. Detail-Vergleich von Elastic mit Solr, der führenden JavaScript-Frameworks: React, Angular und Vue.js, die jeweiligen Native-Frameworks (Ionic etc.) sowie Electron Platform sowie der führen-den Clouds: Amazon AWS, Google GCP und Microsoft Azure sowie Docker/Kubernetes, Webso-ckets vs REST, GraphQL vs Odata vs ORDS, Vergleich geeigneter DBs, z.B. für Range-Scans, AWS RedShift vs Athena.
7. Erstellung einer SOC-Gesamtarchitektur mit Umfängen für Minimal-, Basic-, Advanced- und Pre-mium-Konfiguration mit bis zu 100 Komponenten. Auf dieser Basis Analyse und Präsentation der Chancen/Kosten/Risiken zur Erfüllung von Requirements und Use Cases gegenüber Management und Engineering-Gruppen.
8. Erstellung der SOC Open Source SOC PoC (Proof of Concept) Architektur basierend auf 3 Säulen: Log-Verarbeitung mit Solr/Elastic, Open Source SOC Elementen (RegEx, Match Expressions mit Spark, Kafka, Solr etc.) sowie einer KI-Säule bestehend aus Data Science und Regel-basierter KI mit Spark sowie Deep Learning mit TensorFlow und PyTorch.
9. Erstellung und Abstimmung des Open Source SOC PoC Projektplans und der Architektur mit dem Top-Management der Bahn (CISO, Technik-Vorstands-Bereich), Erstellung von ca. 10 Job-Profilen und Staffing/Job-Interviews auf dieser Basis.
10. Beschaffung von Deep Learning GPU PC- und Server-Hardware und von Cloud-Zugängen (AWS+Azure).
11. Konzeption und Entwicklung zur Einführung von Docker/Kubernetes für TensorFlow- und Py-Torch-Machine-Learning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Ku-be-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risi-ken und Ableitung von Best Practices/Empfehlungen.
12. Evaluierung von Memory-Centric-Tools: Apache Pulsar (schnellere Alternative zu Kafka), memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT.
13. Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-Centric Computing, Data-Locality-Optimierung und Minimierung datenin-tensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
14. Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Conti-nuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
15. Analyse von möglichen Deep Learning Nachfolgetechnologien wie Hierarchical Temporal Memory (HTM), Graph/Memory/Transformer ConvNets (Convolutional Networks) incl. deren frei verfügba-ren Implementierungen sowie PLNs (Probabilistic Logic Network): [Naive] Bayesian Belief Net-works (BNNs), Markov Logic Networks (MLNs), Conditional Random Fields (CRFs), Direct Graphical Models (DGMs), Statistical Relational Learning (SRL), Stochastic And-Or Grammars (AOGs/SAOGs), Probabilistic Relational Models (PRMs), Markov Logic Networks (MLNs), Relational Dependency Networks (RDNs), Bayesian Logic Programs (BLPs), Probabilistic Graphical Models (PGMs), Markov Random Fields (MRFs), Contextual Graph Markov Models (CGMMs), Hidden Markov Models (HMMs), Human brain neurons (HBNs).
16. Konzeption + Entwicklung eines neuen Explainable AI (XAI) Verfahrens, das Deep Learning ablö-sen kann durch Verbindung und Weiterentwicklung mehrerer anderer Modelle und Techniken, darunter ICE, PDP, SHAP, LIME, LOCO, LRP, GAM, Counterfactual, Causality, Rationalization, An-chors, Learn to Explain.
17. Förderantrag ausgearbeitet zur Beantragung der Förderprogramme KI-für IT-Sicherheit und Er-klärbare KI (Explainable AI, XAI) der Bundesregierung: Innovative Ideen entwickelt, neueste KI-, Data Science und Big Data Verfahren und Weiterentwicklungen vorgeschlagen zur Erkennung von ungewöhnlichem Verhalten/Angriffen/Malware sowie neueste NLP-Verfahren zur automatisier-ten Analyse von textuellen Angriffs- und Malware-Beschreibungen im Internet oder in E-Mails/Wikis sowie der Umsetzung der Cyber Grand Challenge Elemente über Deep Learning, RNNs, CNNs. Hierzu Entwicklung der Geschäftsstrategie und des Geschäftsplans zur separaten Vermarktung der damit geplanten Innovationen.
18. Erstellen von Sicherheitskonzepten für Windows- und Linux PCs und Sever u.A. bzgl. zahlreicher Sicherheitseinstellungen, IAM mit Red Hat Identity Manager / FreeIPA (Identity, Policy, Audit), keycloak, mehr Logging, etc. sowie durch Installation von bis zu 50 Analyse- und Überwachungs-Tools zur Generierung eigener Logging- und Incident-Daten mit Tools wie Sigar, Config. Discovery, File Integrity Checker (Afick), CGC Tools: BinaryAnalysisPlatform bap, angr, s2e, KLEE, Strace, ZZUF, BitBlaze.
19. Konzeption von klassischen Data Science Analysen bzgl. verdächtiger Aktivitäten mit GBM(Gradient Boosting Machine), XGBoost, CatBoost, LightGBM, stacked ensembles, blending, MART (Multiple Additive Regression Trees), Generalized Linear Models (GLM), Distributed Rand-om Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.
20. Analyse der besten Deep Learning Netzwerk-Architekturen in den jeweiligen Teilfeldern: Res-Net, ResNext, DenseNet, MSDNet (Multi-Scale DenseNet), RepMet, EfficientNet sowie der folgen-den NLP-Implementierungen (z.B. zur Extraktion strukturierter Beschreibungen aus textuellen IoC – Indicators of Compromise): BERT, FastBert, SenseBERT, RoBERTa, ALBERT, GPT, GPT-2.
21. Konzeption/Entwicklung von neuronalen Deep Learning Netzwerk-Architekturen für TensorFlow, Keras, PyTorch mit diesen Elementen: (De-)Convolution, [Dimensional][Min/Max/Average] (Un-)Pooling, Activation Functions, ReLUs (Rectified Linear Units), ELU (Exponential Linear Unit), SELU (Scaled Exponential Linear Unit), GELU (Gaussian Error Linear Unit), SNN (Self Normalizing Net-work), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Differentiable Associative Memory (Soft RAM/Hash Table), Episodic Memory, Memory Networks, Self-Attention, Multi-Head-Attention, (Masked Multi) Self Attention, NAC (Neural Accumulator), NALU (Neural Arithmetic Lo-gic Unit), Squeeze-and-Excitation (SE) / SENet, SPN (Sum-Product Network), VAE (Variational Auto-Encoders), FCLs (Fully Connected Layers), PLNs (Probabilistic Logic Networks), GANs (Generative Adversarial Networks), Capsule Networks, gcForest, Differentiable Programming, Neural Architec-ture Search (NAS), Differentiable Neural Networks, [Transposed](De-)Convolutions, ETL (Extract, Transform, Load) with Input/Output Embedding, (Layer) Normalizing, Softmax, Automatic Machine Learning, Episodic Memory, Differentiable Associative Memory, Large Memory Layers with Pro-duct Keys, Deep (Double) Q-Learning, Msc (Adding, Concatenation, Segmentation, Linearization, (Convol.) Filters), Reinforcement Learning, Q-learning, Convolutional Models/Learning, Google Dopamine.
22. Konzeption der Deep Learning Architekturen u.A. über erzeugte Grafiken/Computer Vision für folgende Use Cases / Use Case Slices: Ausbreitung von Malware durch Security-Zonen (Ausbrei-tungs-Grafik), Erkennung des (Check-, Verbreitungs-, Ausleitungs-)Verhaltens von Malware, häufi-ger Angriffe, insbesondere OS-API-Angriffe, Code Injection, etc., von gestohlenen CPU-Zyklen durch Malware, z.B. durch Hooks in Event-Queues zur Erkennung von deren Abarbeitung, von ROP (Return Oriented Programming) mit ROPNN-Variante auf Standard-Libraries durch Vergleich der üblichen mit den zu beurteilenden Einsprungpunkten; Modelle erstellt für Meta-Level: Netz-werk-Metadaten-Analyse; Detail-Level: Nutzdaten-Analyse auf Exploit-Code/-Daten etc., aktuelle Bedrohungen, bekannt gewordene IoCs, Afick-/tripwire-Daten neuronal analysieren (oft als Gra-fik), Erkennung von Verschlüsselung und von Schlüssel-Austauschen, SNMP Anomalie-Detektion, Rogue Device Detection, Erkennung bösartiger URLs/IP-Adressen, Erkennung von DNS-Exfiltration, Erkennung von Aktivität sonst inaktiver Konten, E-Mails an fragwürdige Empfän-ger/Exfiltration, verdächtige Netzwerk-Aktivitäten/ungewöhnliche Protokolle/Ports, Echtzeit-Scannen von Downloads und Kombination von dynamischer Dekompression (Laufzeit-Packer), Vi-ren- und Anomalie-Erkennung (statisch und dynmisch in Cuckoo Sandbox).
23. Nutzung von Computer Vision Muster-Erkennungsverfahren speziell zur Erkennung von Unre-gelmäßigkeiten bzw. Malware-/Hacking-Indikatoren: Prozess- und API Aufrufketten, ungewöhnli-che API-Nutzung, Indikatoren für Hacker-Bewegungen im Netzwerk, Indikatoren für Malware-Aktivität auf Datei- oder Prozess-Ebene, Nutzung von Laufzeit-Packern, etc.
24. Detail-Konzeption der folgenden Elastic-/Solr-Aspekte (Parallelnutzer beider Systeme wegen a) Integration von Elastic in Metron und seinen vielen Adaptern/Konnektoren/Beats und b) besserer Skalierbarkeit von Solr z.B. wegen kontrollierbarem dynamischem Shard-Rebalancing): SolrCloud/HDP Search, Integration mit Apache Ranger + Sentry + Atlas, Performance-optimierter SolrJ Client mit parallelen Queries, Distributed Indexing, Index Sharding, Shard Splitting und Reba-lancing (auch zur Laufzeit), Cross Data Center Replication (CDCR), Solr Security (Kerberos, AD-Anbindung, SASL, SSL), Versionierung mit Avro & LDP (Linked Data Platform) & Apache Marmot-ta/RFC 7089, Stretched Cluster vs synched Multi-Cluster, Sizing, Definition der Solr Index Identifi-er (UID), High Availability (HA) und Disaster Recovery (DR) Mechanismen, Solr HA, Load-Balancing-Konzept (HW-basiert über F5, Ping gegen SolrCloud Node, solr healthcheck, Zookeeper, Content-Query gegen Test-Collection, SolrJ Client), Q Replikation, Konzeption von Overlay-Netzen (SDN, Software-Defined Networking).
25. Konzeption der parallel genutzen Amazon AWS Cloud-Architektur sowie parallel der Azure Archi-tektur mit Migrationskonzept in die Cloud (möglichst cloud-unabhängig durch Nutzung von Do-cker/Kubernetes) unter Nutzung vond Microservices/Serverless (AWS Lambda), Risiko-Vermeidungsstrategie, Virtualisierung, effizientem JavaScript-UI mit React, Cloud-Sicherheitskonzept, Microservice-Architektur, Microservice-Versionierungsstrategien, optimier-tem Datenaustausch, Nutzung des AWS Storage Gateways, AWS Redshift, Relational Database Ser-vice (RDS), Simple Queue Service (SQS), Simple Notification Service (SNS), S3, Glue, Kinesis, Athe-na, DDD (Domain-Driven Design) and Bounded Contexts, Product Line Architecture, Single-Sign-On-Konzept (SSO), Spring Boot und Reactor Microservices, etc.
26. Recherche und Analyse verfügbarer Sicherheits-Incident- und Hacking-Daten als Input für klassi-sches Machine Learning (Spark MLlib etc.) sowie für Deep Learning (TensorFlow, PyTorch). Es gibt ca. 100 verschiedene Quellen, aber mit Labeling in unterschiedlicher Qualität, unterschiedlichem Konvertier- und Anpassungsaufwand, etc.
27. Generierung eigener IT-Sicherheits-Trainingsdaten für Machine Learning (ML) über voll-instrumentierte Linux- und Windows-basierte Umgebungen (PC, vmWare), in denen dann ca. 50 PenTesting Tools wie MetaSploit, AutoSploit etc. ausgeführt wurden. Anleitung zur Normalisierung und zum Labeling der so erstellten sowie der externen Daten. Erstellung/Extraktion von regulären Ausdrücken sowie Generierung von ähnlichen Angriffen/Payloads auf dieser Basis.
28. Konzeption+Entwicklung einer Kontroll- und Steuerungs-Library in Scala für Erkennung und KI, die alle Kernelemente des SOCs monitored und steuert.
29. Konzeption+Entwicklung einer UI- und Query-Library in Scala, die intelligente Analysen im Kiba-na-Dashboard mit React visualisiert sowie nach unten über Apache Drill mit Drillbits Query-Mapping in SQL, HQL, Solr und ähnliche Dialekte durchführt. Hierbei haben wir weitgehend Splunk’s SPL (Search Processing Language) als unsere OPL (Open Processing Lanaguage) nachge-bildet. Dabei handelt es sich im Wesentlichen um SQL erweitert um Infos zur Darstellung im UI.
30. Entwicklung/Nutzung einer Kombination von datensparsamen Lernverfahren als Antwort auf mangelnde Trainingsdaten. So lassen sich anfänglich aufgrund Datenmangel noch nicht per Deep Learning lernbare Gewichte/Zusammenhänge manuell / halbautomatisch oder datensparsam ler-nen:
a. Entwicklung probabilistischer Regeln durch Code-Generierung zur Anbindung von MS Excel bzw. PyTorch/PyProb mittel StringTemplate/VBA an Factorie, ProbLog und Probabi-listic Soft Logic (PSL). Diese werden dann später – nach Produktivsetzung – ersetzt durch aus Massendaten gelernte Regelsysteme/Autoencoder.
b. Probabilistische Programmierung, Bayes- bzw. Stochastik-Libraries, (PP) / Programmab-le Inference: Stan (mc-stan.org), PyMC3/PyMC4, Soss.jl, Julia + MIT Gen.jl oder Pyro o-der Edward oder Microsoft Infer.Net
c. (SSL) Semi-Supervised Learning/Self-Supervised Learning
d. Intelligentes Tokenizing, intelligente selektive Feature-Extraktion (hieraus Log- oder Security-Warning-Daten)
e. Case-Based Reasoning (CBR)/Memory-Based Reasoning (MBR): CRATER, ProCAKE, COLIBRI, etc.
f. Constraint-based Reasoning, Theory of Constraints (TOC) Frameworks, Hierarchical Cons-traint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF), Java Constraint Library(JCL), IASolver, BackTalk, POOC, YACS, Integrity
g. Classical/Probabilistic Rule Engines / Probabilistic Finite Automata / probabilistische endliche Automaten: Virus Scanning Engines wie ClamAV
h. (Heuristic non-linear) Optimization oder Operations Research Software wie ALGLIB, Ca-sADi, Ceres Solver, Dlib, GEKKO, MIDACO, OpenMDAO, SciPy, GNU Octave, Scilab
i. Non-linear Planning and Control Libraries: Control Toolbox, AIKIDO, ROS Navigati-on2+ROS Behavior-Tree, Open Motion Planning Library (OMPL)
j. SinGAN (Single Input GAN)
k. Reinforcement Learning, Convolutional Models/Learning, Google Dopamine, Policy Op-timization (Policy Gradient, A2C/A3C, PPO, TRPO, DDPG, TD3, SAC), Q-Learning (DDPG, TD3, SAC, DQN, C51, QR-DQN, HER), Deep (Double) Q-Learning, Learn the Model (World Models, I2A, MBMF, MBVE), AlphaZero
l. klassische KI-Verfahren wie CBR, Constraints, Rules, RDF, OWL,
m. Gesamte Liste der klassischen datensparsamen Lernverfahren: Causality, lo-gic/deduction systems, deductive databases, semantic networks, heuristics, collective in-telligence, automata/state machines, blackboard systems, nonstandard logics/temporal logic, (knowledge) representation, automatic programming, genetic programming, quali-tative reasoning, agents, fuzzy logic, model-based reasoning, ontology, quantum compu-ting, analogy, pattern recognition/comparison, decision theory, cognitive science, con-trol system theory, dynamical systems, self-organizing systems, hybrid AI, modularity, op-timization, goal-oriented systems, feature extraction/detection, utili-ty/values/fitness/progress, formal grammars and languages, classifiers/concept formati-on, problem solving, argumentation/informal logic, common sense reasoning, cohe-rence/consistency, relevance/sensitivity analysis, semiotics, game theory, automation, behaviorism, knowledge engineering, semantic web, sorting/typology/taxonomy, coope-ration theory, systems theory.
31. NLP-Analyse und-Generation (Natural Language Processing) von Log- und Web-Inhalten und Kommandos zur Suche oder zur weiteren Verarbeitung auf diesen:
a. Extraktion von Fließtext-IoC-Inhalten (Indicator of Compromise) ins STIX-Format zur teil-automatischen Weiterverarbeitung, etwa automatisierte Suche nach Dateihashes, Analy-se & Sperren von offenen Ports und ein-/ausgehenden Verbindungen.
b. Semantische Kategorisierung (Problem-Kategorie, Schwere des Fehlers und möglicher Auswirkungen/Risiken, Dringlichkeit) und textuelle NLP-Analyse von Log-Inhalten mit genSim, spaCy und in Teilen auch mit Google BERT, ALBERT, GPT, Graph-ConvNets mit Octavian, Google Sling, TensorFlow graph_nets & gcn (Graph Convolutional Networks), PyTorch Geometric.
c. Für NLP-Analyse und-Generation: OpenAI GPT/GPT-2 (Generative Pre-trained Transfor-mer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirecti-onal Encoder Representations from Transformers)), ALBERT.
32. Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange : High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).Für NLP-Analyse und-Generation: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirectional Encoder Representations from Transformers)), ALBERT.
33. Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den (Teil-)Projekten oder direkter Vorschlag der Lösungen:
a. Analyse von Semantik-Tools, Symbolic AI und Explainable AI für das KI-Security-Förderprogramm sowie für neue Arbeitspakete: KL-ONE: Protégé, LOOM, Knowledge Engineering Environment (KEE), Pellet, RacerPro, FaCT++ & HermiT, Non-Linear Planner, CBR (Case-Based Reasoning), RDF (Resource Description Framework)/ SPARQL (SPARQL Protocol and RDF Query Language), OpenCog (AtomSpace, Atomese, MOSES/MetaCog, Link-Grammar), Induktions-/Deduktions-Technologie wie OWL/OWL-DL (Ontology Web Language Description Logics), führende Implementierung: Apache Jena OWL, HPSG (Head-driven Phrase Structure Grammar) Parsing: DELPH-IN PET Parser, Enju, Grammix, Stanford CoreNLP, OpenEphyra, Frame-Logik, Explainable AI mit LOCO (Leave-One-Covariate-Out).
b. NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Ana-lysieren/Parsen von Screenshots mit OCR/ICR-Techniken (Computer Vision Ansätze mit Deep Leearning, Verarbeitung mit probabilistischen Regeln) zusammen mit dem textuel-len Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Machine Learning (ML) modellen; Stanford CoreNLP-Ansatz integriert; Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Ana-lyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrten-schwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene.
Tools/Algorithmen: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning Model (HMTL), semi-supervised Lernalgorithmen zur Erstellung von Proxy-Labels auf unmarkierten Daten, BiLSTM, SalesForce MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Wortta-schen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, ALBERT, Trans-fer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, genSim, O-penNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungs-lernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antwor-ten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
c. KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Neural Ordinary Differential Equations, Visual Common Sense Reason-ing, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent vir-tual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Ke-ras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side ren-dering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), U-ber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine rein-forcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Exten-ded (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Langu-age), Jaeger (OS distributed tracing system, optimized for microservices).
d. Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Mo-dell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Rein-forcement] Learning mit klassischen Lernverfahren kombiniert).
e. Konzept für AIops (Artificial Intelligence Operations) / KI-basierte Betriebs-Optimierung im Kontext Metadatamanagement und Ingest:
i. Konzept für die Einführung eines CMS (Config Management System)/ISMS zur Minimierung menschlicher Fehler bei der Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separa-te CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumge-bung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
ii. Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung sta-tistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenauf-nahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstel-lung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blu-eprints für Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vo-rausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priori-tät zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verscho-ben werden müssen, wann Diagnostik-Sammelprozesse nach Warnun-gen/Fehlern/Ausfällen gestartet werden, …
DS-Ansatz (Data Science) Eine Mischung aus Anomaly Detection, Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse + Seasonality Analysis, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke; TensorFlow+Keras sowie PyTorch – auch für semantische Sicherheits-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning. partielle Abhängigkeitsdiagramme[Modellleckagen, Entscheidungserklärungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Visualisierung der Metadaten, KPIs, UMAP Dimensionality Reduction, STN-OCR, Scikit-learn, Pandas, Wowpal Wabbit.
Bibliotheken / Tools Docker, Kubernetes, Scala, Python, Airflow, Kubeflow, CeleryExecutor, RADOS + Ceph, TensorFlow-Stack mit Keras, AutoKeras oder PyTorch + Auto-PyTorch + AddOns, Uber Horovod, Apache Spark Stack mit Spark Streaming, Spark SQL, MLlib, GraphX, Alluxio, TransmogrifAI, Alluxio, TensorFlowOnSpark, PySpark mit Optimus, Apache Flink, Jupyter, Zeppelin, PyTorch, MXNet, Chainer, Keras, Horovod, XGBoost, CatBoost, RabbitMQ, ONNX, Hydrosphere Serving (model management), Zephyr (Continuous Testing Agility), Red Hat OpenShift, Elastic/ElasticSearch, MS Azure Hybrid Cloud, Kafka, Kafka-REST Proxy, KafkaCat, Confluent, Chukwa, Ansible, OpenTSDB, Apache Ignite DB mit TensorFlow/ML-Integration, MLflow, CollectD, Python 3.x, Flask (Python Microframework: REST, UI), Coconut Functional Programming für Python, Robot Framework (Python acceptance test-driven development (ATDD)), CNTLM, Red Hat Identity Manager / FreeIPA, keycloak, Samba, Nginx, Grafana, Jenkins, Nagios, Databricks (Spark, Kafka, Connectors to R, TensorFlow, etc.), Snowflake, RTLinux, RHEL, Ubuntu, Kali Linux, Scrum + Design Thinking + SAFe.
Memory-Centric/IMDG (In-Memory Data Grid): Apache Pulsar (schnellere Alternative zu Kafka), memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT.
PenTesting-Tools: AutoSploit, Metasploit, Burp Suite, NeXpose, Nessus, Tripwire, CORE Impact, Kali Linux, Snort, Bro, Argus, SiLK, tcpdump, WireShark, parosproxy, mitmproxy, nmap, Security Onion, Bro, Sguil, Squert, CyberChef, NetworkMiner, Silk, Netsniff-NG, Syslog-NG, Stenographer, osquery, GRR Rapid Response, Sysdig Falco, Fail2Ban, ClamAV, Rsyslog, Enterprise Log Search and Archive (ELSA), Nikto, OWASP Zap, Naxsi, modsecurity, SGUIL, Mimikatz, CORE Impact, Kali Linux.
Log-Processing-Toolsets: OpenSCAP, Moloch, ntopng, Wireshark + plugins, Fluentd Message Parser, SQL-basierte Abfragen: SploutSQL, Norikra + Esper (Stream /Event Processing)
Cyber Grand Challenge (CGC) Tools: BinaryAnalysisPlatform bap, angr, s2e, KLEE, AFL (American fuzzy lop), Strace, ZZUF, Sulley, BitBlaze, Shellphish/Mechaphish Tools: how2heap, fuzzer, driller, rex
Protokolle: AES, RSA, SHA, Kerberos, SSL/TLS, Diffie-Hellman
DBs: HBase + Phoenix, Hive, PostgreSQL, Druid, Aerospike, Hive, Lucene/Solr/Elasticsearch, SploutSQL
NLP-Stack mit Google BERT/Sling, ALBERT, spaCy, GPT-2, Stanford CoreNLP, AllenNLP, OpenEphyra, DELPH-IN PET Parser, Enju, Grammix
Logik-/Semantik-Tools: Protégé, LOOM, RDF (Resource Description Framework)/ SPARQL, OpenCog, TinyCog, Apache Jena OWL, Frame-Logik
OCR/ICR Libraries: Tesseract OCR engine, OCRopus, Formcraft, Kofax KTM (Kofax Transformation Modules)
Reinforcement Learning, Convolutional Models/Learning, Google Dopamine, Policy Optimization (Policy Gradient, A2C/A3C, PPO, TRPO, DDPG, TD3, SAC), Q-Learning (DDPG, TD3, SAC, DQN, C51, QR-DQN, HER), Deep (Double) Q-Learning, Learn the Model (World Models, I2A, MBMF, MBVE), AlphaZero
Diverses: Learn to Grow / Catastrophic Forgetting, Semi-Supervised Learning und/oder Self-Supervised Learning (SSL), SPNs (Sum-Product Networks) & VAEs (Variational Auto-Encoders), Hierarchical Temporal Memory (HTM)
Bayes- bzw. Stochastik-Libraries / Probabilistic programming (PP) / Programmable Inference: Stan (mc-stan.org), PyMC3/PyMC4, Soss.jl, Julia + MIT Gen, Pyro, Edward, Microsoft Infer.Net
Probabilistic Logic Networks (PLNs, Pyro-Programmiersprache), Differentiable Programming, Cloned Hidden Markov Models (CHMM)
Logik-/Semantik-Tools: Protégé, LOOM, RDF (Resource Description Framework)/ SPARQL, OpenCog, TinyCog, Apache Jena OWL, Ontobridge, Frame-Logik
Graph-ConvNets (Graph Convolutional Networks)
Case-Based Reasoning (CBR): CRATER, ProCAKE, COLIBRI, etc.
Theory of Constraints (TOC) Frameworks, Hierarchical Constraint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF), Java Constraint Library(JCL), IASolver, BackTalk, POOC, YACS, Integrity
Classical/Probabilistic Rule Engines / Probabilistic Finite Automata / probabilistische endliche Automaten: Virus Scanning Engines wie ClamAV
(Heuristic non-linear) Optimization Software wie ALGLIB, CasADi, Ceres Solver, Dlib, GEKKO, MIDACO, OpenMDAO, SciPy, GNU Octave, Scilab
Non-linear Planning and Control Libraries: Control Toolbox, AIKIDO, ROS Navigation2+ROS Behavior-Tree, Open Motion Planning Library (OMPL)
Sonstige Sicherheits-Tools: IDS/IPS-, NetFlow- und Protokollerfassungs- und Analysetools wie z.B. Snort, Suricata, Bro, Argus, SiLK, tcpdump oder WireShark, Cuckoo-basierte Malware Analyse, Disassembler, Prometheus+Icinga Monitoring, OCS Inventory NG, System Config + Activity Analysis: Sigar, Config. Discovery, File Integrity Checker (Afick), Apache Nifi / Hortonworks DataFlow, Elastic Stack (Beats, Logstash, Elasticsearch, Kibana, React + Kibana, Solr Stack (SolrCloud, SolrJ Client, Banana), Apache Drill Queries, UIs, Entwicklung von Drillbits, DSL (Domain Specific Language), Eclipse Parser, JavaCC, Antlr, Lex, yacc/bison, Flex, JFlex, GLR/LALR/LL Parser, Ansible, Juju, MAAS, Kubernetes/K8s + Docker, ggf. Minikube, Microk8s, Blitz Incident Response, HDFS, Data Lake, Zookeeper, Hive, JDBC, Management Tools (Ambari, Ranger, etc.), Hadoop Secure Mode, SSO (Single Sign-On), Identity & Access Management (IAM/IdM), LDAP, Role Mapping, Kerberos, TLS, OAuth, OpenId Connect.