최신Databricks Certified Data Engineer Associate Exam (Databricks-Certified-Data-Engineer-Associate日本語版) - Databricks-Certified-Data-Engineer-Associate日本語무료샘플문제
문제1
高精度なデータを必要とする企業において、データエンジニアはストリーミングソースとバッチソースの両方からデータを取り込む必要があります。ストリーミング入力を提供するセンサーによって取得されたデータの一部が、想定されるパラメータの範囲外となる場合があります。このような場合、データは破棄する必要がありますが、ストリームは停止してはなりません。Delta Live Tablesのどの機能がこの要件を満たしますか?
高精度なデータを必要とする企業において、データエンジニアはストリーミングソースとバッチソースの両方からデータを取り込む必要があります。ストリーミング入力を提供するセンサーによって取得されたデータの一部が、想定されるパラメータの範囲外となる場合があります。このような場合、データは破棄する必要がありますが、ストリームは停止してはなりません。Delta Live Tablesのどの機能がこの要件を満たしますか?
정답: A
설명: (ExamPassdump 회원만 볼 수 있음)
문제2
データエンジニアがUnityカタログ内のサンドボックススキーマを廃止しようとしています。一部のテーブルは一時的なステージング出力であり、完全に削除しても安全ですが、いくつかのテーブルはDatabricks外部のダウンストリームジョブで使用される共有クラウドストレージを参照しています。エンジニアはカタログオブジェクトをクリーンアップする際に、共有ファイルを削除しないように注意する必要があります。
Unityカタログは、管理対象テーブルと外部テーブルを削除した場合、どのように動作しますか?
データエンジニアがUnityカタログ内のサンドボックススキーマを廃止しようとしています。一部のテーブルは一時的なステージング出力であり、完全に削除しても安全ですが、いくつかのテーブルはDatabricks外部のダウンストリームジョブで使用される共有クラウドストレージを参照しています。エンジニアはカタログオブジェクトをクリーンアップする際に、共有ファイルを削除しないように注意する必要があります。
Unityカタログは、管理対象テーブルと外部テーブルを削除した場合、どのように動作しますか?
정답: B
설명: (ExamPassdump 회원만 볼 수 있음)
문제3
データエンジニアがSpark SQLテーブルmy_tableを削除しようとしています。データエンジニアは、テーブルのメタデータとデータをすべて削除したいと考えています。
次のコマンドを実行します。
my_tableが存在する場合はテーブルを削除
SHOW TABLES を実行してもオブジェクトは表示されなくなりますが、データ ファイルは引き続き存在します。
データ ファイルがまだ存在し、メタデータ ファイルが削除された理由を説明するのは次のどれですか。
データエンジニアがSpark SQLテーブルmy_tableを削除しようとしています。データエンジニアは、テーブルのメタデータとデータをすべて削除したいと考えています。
次のコマンドを実行します。
my_tableが存在する場合はテーブルを削除
SHOW TABLES を実行してもオブジェクトは表示されなくなりますが、データ ファイルは引き続き存在します。
データ ファイルがまだ存在し、メタデータ ファイルが削除された理由を説明するのは次のどれですか。
정답: A
문제4
データエンジニアがSpark SQLを使用して、Delta形式で保存された大規模なデータセットを分析しています。エンジニアは、パーティション列でフィルタリングするクエリの実行速度が著しく速いことに気づきました。このパフォーマンス向上の主な理由は何でしょうか?
データエンジニアがSpark SQLを使用して、Delta形式で保存された大規模なデータセットを分析しています。エンジニアは、パーティション列でフィルタリングするクエリの実行速度が著しく速いことに気づきました。このパフォーマンス向上の主な理由は何でしょうか?
정답: D
문제5
データエンジニアは、2つのテーブルからデータを取得してリレーショナルオブジェクトを作成したいと考えています。このリレーショナルオブジェクトは、他のセッションの他のデータエンジニアが使用する必要がありません。ストレージコストを節約するため、データエンジニアは物理データのコピーと保存を避けたいと考えています。
データ エンジニアが作成する必要があるリレーショナル オブジェクトは次のどれですか。
データエンジニアは、2つのテーブルからデータを取得してリレーショナルオブジェクトを作成したいと考えています。このリレーショナルオブジェクトは、他のセッションの他のデータエンジニアが使用する必要がありません。ストレージコストを節約するため、データエンジニアは物理データのコピーと保存を避けたいと考えています。
データ エンジニアが作成する必要があるリレーショナル オブジェクトは次のどれですか。
정답: E
문제6
次のクエリのうち、生データからブロンズテーブルへのストリーミングホップを実行しているのはどれですか?
次のクエリのうち、生データからブロンズテーブルへのストリーミングホップを実行しているのはどれですか?
정답: B
문제7
あるプロジェクトに新しいデータエンジニアリングチームが配属されました。チームは、既存のテーブルを確認するためにデータベースの顧客にアクセスする必要があります。チームには独自のグループチームがあります。
新しいチームにデータベース全体に対する必要な権限を付与するには、次のコマンドのどれを使用できますか?
あるプロジェクトに新しいデータエンジニアリングチームが配属されました。チームは、既存のテーブルを確認するためにデータベースの顧客にアクセスする必要があります。チームには独自のグループチームがあります。
新しいチームにデータベース全体に対する必要な権限を付与するには、次のコマンドのどれを使用できますか?
정답: A
문제8
データエンジニアは、大きなテーブルと小さなルックアップテーブルを結合するSparkジョブの処理が遅いことに気づきました。ルックアップテーブルはわずか数メガバイトです。結合操作のパフォーマンスを向上させるには、どのSpark最適化手法を適用すべきでしょうか?
データエンジニアは、大きなテーブルと小さなルックアップテーブルを結合するSparkジョブの処理が遅いことに気づきました。ルックアップテーブルはわずか数メガバイトです。結合操作のパフォーマンスを向上させるには、どのSpark最適化手法を適用すべきでしょうか?
정답: B
문제9
データエンジニアは、各タスクが前のタスクの正常な完了に依存するワークフローで、複数のタスクをスケジュールしたいと考えています。このワークフローは、再試行と監視をサポートする必要があります。
Databricksのどの機能を使用すべきですか?
データエンジニアは、各タスクが前のタスクの正常な完了に依存するワークフローで、複数のタスクをスケジュールしたいと考えています。このワークフローは、再試行と監視をサポートする必要があります。
Databricksのどの機能を使用すべきですか?
정답: C
문제10
データエンジニアとデータアナリストが協力してデータパイプラインを作成しています。データエンジニアはPythonを使用してパイプラインのRaw、Bronze、Silverレイヤーに取り組んでおり、データアナリストはSQLを使用してパイプラインのGoldレイヤーに取り組んでいます。パイプラインのRawソースはストリーミング入力です。彼らは現在、パイプラインをDelta Live Tablesに移行したいと考えています。
Delta Live Tables に移行するときに、パイプラインに次のどの変更を加える必要がありますか?
データエンジニアとデータアナリストが協力してデータパイプラインを作成しています。データエンジニアはPythonを使用してパイプラインのRaw、Bronze、Silverレイヤーに取り組んでおり、データアナリストはSQLを使用してパイプラインのGoldレイヤーに取り組んでいます。パイプラインのRawソースはストリーミング入力です。彼らは現在、パイプラインをDelta Live Tablesに移行したいと考えています。
Delta Live Tables に移行するときに、パイプラインに次のどの変更を加える必要がありますか?
정답: D
문제11
データアーキテクトは、以下の形式のテーブルが必要であると判断しました。

次のコードブロックのうち、既に同じ名前のテーブルが存在するかどうかに関わらず、上記の形式で空のデルタテーブルを作成するためにSQL DDLコマンドを使用するものはどれですか?
データアーキテクトは、以下の形式のテーブルが必要であると判断しました。

次のコードブロックのうち、既に同じ名前のテーブルが存在するかどうかに関わらず、上記の形式で空のデルタテーブルを作成するためにSQL DDLコマンドを使用するものはどれですか?
정답: D
문제12
データエンジニアがストリーミングパイプラインを設計しており、集計クエリの状態情報をSparkが保持する期間を制限したいと考えています。遅延データの処理期間を定義する構造化ストリーミング機能はどれですか?
データエンジニアがストリーミングパイプラインを設計しており、集計クエリの状態情報をSparkが保持する期間を制限したいと考えています。遅延データの処理期間を定義する構造化ストリーミング機能はどれですか?
정답: C