Serverless Data Processing with Dataflow (SDPF) – Details
Detaillierter Kursinhalt
Modul 1: Einführung
Stellen Sie die Kursziele vor.
Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen.
Modul 2: Übertragbarkeit von Strahlen
Fassen Sie die Vorteile des Beam Portability Framework zusammen.
Passen Sie die Datenverarbeitungsumgebung Ihrer Pipeline mithilfe benutzerdefinierter Container an.
Überprüfung der Anwendungsfälle für sprachübergreifende Transformationen.
Aktivieren Sie das Portability Framework für Ihre Dataflow-Pipelines.
Modul 3: Trennung von Datenverarbeitung und Speicherung mit Dataflow
Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen.
Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung.
Modul 4: IAM, Kontingente und Berechtigungen
Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag.
Ermitteln Sie Ihren Kapazitätsbedarf, indem Sie die entsprechenden Quoten für Ihre Dataflow-Jobs überprüfen.
Modul 5: Sicherheit
Wählen Sie Ihre zonale Datenverarbeitungsstrategie mit Dataflow, je nach Ihren Anforderungen an die Datenlokalisierung.
Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung.
Modul 6: Wiederholung von Strahlenkonzepten
Überprüfung der wichtigsten Konzepte von Apache Beam (Pipeline, PCollections, PTransforms, Runner, Lesen/Schreiben, Utility PTransforms, Side Inputs), Bundles und DoFn Lifecycle.
Modul 7: Fenster, Wasserzeichen, Auslöser
Implementieren Sie eine Logik zur Verarbeitung Ihrer verspäteten Daten.
Überprüfen Sie die verschiedenen Arten von Auslösern.
Überprüfung der wichtigsten Streaming-Konzepte (unbeschränkte PCollections, Fenster).
Modul 8: Quellen und Senken
Schreiben Sie die E/A Ihrer Wahl für Ihre Dataflow-Pipeline.
Stimmen Sie Ihre Quelle/Senke-Transformation für maximale Leistung ab.
Benutzerdefinierte Quellen und Senken mit SDF erstellen.
Modul 9: Schemata
Einführung von Schemata, die Entwicklern eine Möglichkeit bieten, strukturierte Daten in ihren Beam-Pipelines auszudrücken.
Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern.
Modul 10: Zustand und Zeitgeber
Ermittlung von Anwendungsfällen für die Implementierung von Status- und Zeitgeber-APIs.
Wählen Sie den richtigen Typ von Status und Zeitgebern für Ihre Pipeline.
Modul 11: Bewährte Praktiken
Implementierung bewährter Verfahren für Dataflow-Pipelines.
Modul 12: Datenfluss-SQL und DataFrames
Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames.
Modul 13: Beam Notebooks
Prototyping Ihrer Pipeline in Python mit Beam-Notebooks.
Verwenden Sie Beam-Magie, um das Verhalten der Quellenaufzeichnung in Ihrem Notebook zu steuern.
Starten Sie einen Auftrag in Dataflow von einem Notebook aus.
Modul 14: Überwachung
Navigieren Sie durch die Benutzeroberfläche der Dataflow-Auftragsdetails.
Interpretieren Sie Job-Metrics-Diagramme, um Regressionen in der Pipeline zu diagnostizieren.
Setzen Sie Alarme für Dataflow-Aufträge mit Cloud Monitoring.
Modul 15: Protokollierung und Fehlerberichterstattung
Verwenden Sie die Dataflow-Protokolle und Diagnose-Widgets, um Probleme in der Pipeline zu beheben.
Modul 16: Fehlersuche und Fehlerbehebung
Verwenden Sie einen strukturierten Ansatz zum Debuggen Ihrer Dataflow-Pipelines.
Untersuchen Sie die häufigsten Ursachen für Rohrleitungsausfälle.
Modul 17: Leistung
Verstehen Sie Leistungsüberlegungen für Pipelines.
Überlegen Sie, wie sich die Form Ihrer Daten auf die Leistung der Pipeline auswirken kann.
Modul 18: Testen und CI/CD
Testansätze für Ihre Dataflow-Pipeline.
Prüfen Sie die verfügbaren Frameworks und Funktionen, um Ihren CI/CD-Workflow für Dataflow-Pipelines zu optimieren.
Modul 19: Verlässlichkeit
Implementieren Sie Best Practices für die Zuverlässigkeit Ihrer Dataflow-Pipelines.
Modul 20: Flex-Vorlagen
Verwendung von Flex-Vorlagen zur Standardisierung und Wiederverwendung von Dataflow-Pipeline-Code.