[AWS]Data Engineer Associate DEA-C01 dump 최신문제 1~261 한글 번역

AWS 시험정보/Data Engineer Associate

[AWS]Data Engineer Associate DEA-C01 dump 최신문제 1~261 한글 번역

물빠따 2026. 1. 4. 14:31

=== 문제 1 ===
문제: 데이터 엔지니어가 Amazon S3 버킷에서 데이터를 읽도록 AWS Glue 작업을 구성하고 있습니다. 데이터 엔지니어는 필요한 AWS Glue
연결 세부 정보와 관련 IAM 역할을 설정했습니다. 그러나 데이터 엔지니어가 AWS Glue 작업을 실행하려고 하면 데이터 엔지니어는
Amazon S3 VPC 게이트웨이 엔드포인트에 문제가 있음을 나타내는 오류 메시지를 수신합니다. 데이터 엔지니어는 오류를 해결하고 AWS
Glue 작업을 S3 버킷에 연결해야 합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon S3 VPC 게이트웨이 엔드포인트로부터의 인바운드 트래픽을 허용하도록 AWS Glue 보안 그룹을 업데이트합니다.
B. S3 버킷에 액세스할 수 있는 권한을 AWS Glue 작업에 명시적으로 부여하도록 S3 버킷 정책을 구성합니다.
C. AWS Glue 작업 코드를 검토하여 AWS Glue 연결 세부 정보에 정규화된 도메인 이름이 포함되어 있는지 확인하세요.
D. VPC의 라우팅 테이블에 Amazon S3 VPC 게이트웨이 엔드포인트에 대한 인바운드 및 아웃바운드 경로가 포함되어 있는지 확인합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 2 ===
문제: 소매 회사에는 Amazon S3 버킷에 고객 데이터 허브가 있습니다. 여러 국가의 직원들이 데이터 허브를 사용하여 전사적 분석을 지원합니다.
거버넌스 팀은 회사의 데이터 분석가가 분석가와 동일한 국가에 있는 고객의 데이터에만 액세스할 수 있도록 해야 합니다. 최소한의 운영 노력으로
이러한 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. 각 국가의 고객 데이터에 대해 별도의 테이블을 만듭니다. 분석가가 서비스를 제공하는 국가를 기반으로 각 분석가에 대한 액세스를 제공합니다.
B. S3 버킷을 AWS Lake Formation의 데이터 레이크 위치로 등록합니다. Lake Formation 행 수준 보안 기능을 사용하여
회사의 액세스 정책을 시행하십시오.
C. 고객이 있는 국가와 가까운 AWS 리전으로 데이터를 이동합니다. 분석가가 서비스를 제공하는 국가를 기반으로 각 분석가에 대한 액세스를
제공합니다.
D. Amazon Redshift에 데이터를 로드합니다. 각 국가에 대한 뷰를 만듭니다. 각 국가의 데이터에 대한 액세스를 제공하려면 국가별로
별도의 IAM 역할을 생성하세요. 분석가에게 적절한 역할을 할당합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 3 ===
문제: 한 미디어 회사에서는 사용자 행동과 선호도에 따라 고객에게 미디어 콘텐츠를 추천하는 시스템을 개선하려고 합니다. 추천 시스템을 개선하려면 회사는
타사 데이터 세트의 통찰력을 회사의 기존 분석 플랫폼에 통합해야 합니다. 회사는 타사 데이터 세트를 통합하는 데 필요한 노력과 시간을
최소화하려고 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. API 호출을 사용하여 AWS Data Exchange에서 타사 데이터 세트에 액세스하고 통합합니다.
B. API 호출을 사용하여 AWS DataSync에서 타사 데이터 세트에 액세스하고 통합합니다.
C. Amazon Kinesis Data Streams를 사용하여 AWS CodeCommit 리포지토리의 타사 데이터 세트에 액세스하고
통합합니다.
D. Amazon Kinesis Data Streams를 사용하여 Amazon Elastic Container Registry(Amazon
ECR)의 타사 데이터 세트에 액세스하고 통합합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 4 ===
문제: 금융회사에서는 데이터 메시를 구현하려고 합니다. 데이터 메시는 중앙 집중식 데이터 거버넌스, 데이터 분석 및 데이터 액세스 제어를 지원해야
합니다. 이 회사는 데이터 카탈로그와 ETL(추출, 변환 및 로드) 작업에 AWS Glue를 사용하기로 결정했습니다. 데이터 메시를 구현하는
AWS 서비스 조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. 데이터 저장에는 Amazon Aurora를 사용하십시오. 데이터 분석을 위해 Amazon Redshift 프로비저닝된 클러스터를
사용합니다.
B. 데이터 저장에는 Amazon S3를 사용하십시오. 데이터 분석에는 Amazon Athena를 사용하세요.
C. 중앙 집중식 데이터 거버넌스 및 액세스 제어를 위해 AWS Glue DataBrew를 사용하십시오.
D. 데이터 저장에는 Amazon RDS를 사용하십시오. 데이터 분석에는 Amazon EMR을 사용하십시오.
E. 중앙 집중식 데이터 거버넌스 및 액세스 제어를 위해 AWS Lake Formation을 사용하십시오.

정답: Suggested Answer:
BE

==================================================

=== 문제 5 ===
문제: 데이터 엔지니어는 많은 AWS Lambda 함수가 사용하는 데이터 형식 지정 프로세스를 수행하는 사용자 지정 Python 스크립트를 유지
관리합니다. 데이터 엔지니어가 Python 스크립트를 수정해야 하는 경우 데이터 엔지니어는 모든 Lambda 함수를 수동으로 업데이트해야
합니다. 데이터 엔지니어는 Lambda 함수를 업데이트하는 데 덜 수동적인 방법이 필요합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 공유 Amazon S3 버킷의 실행 컨텍스트 객체에 사용자 지정 Python 스크립트에 대한 포인터를 저장합니다.
B. 사용자 지정 Python 스크립트를 Lambda 계층으로 패키징합니다. Lambda 계층을 Lambda 함수에 적용합니다.
C. 공유 Amazon S3 버킷의 환경 변수에 사용자 지정 Python 스크립트에 대한 포인터를 저장합니다.
D. 각 Lambda 함수에 동일한 별칭을 할당합니다. 함수의 별칭을 지정하여 도달 Lambda 함수를 호출합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 6 ===
문제: 한 회사는 AWS Glue에서 ETL(추출, 변환 및 로드) 데이터 파이프라인을 생성했습니다. 데이터 엔지니어는 Microsoft SQL
Server에 있는 테이블을 크롤링해야 합니다. 데이터 엔지니어는 크롤링 출력을 추출, 변환하고 Amazon S3 버킷에 로드해야 합니다.
데이터 엔지니어는 데이터 파이프라인도 조정해야 합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 AWS 서비스 또는 기능은 무엇입니까?

답변 목록:
A. AWS 단계 함수
B. AWS Glue 워크플로
C. AWS Glue Studio
D. Apache Airflow용 Amazon 관리형 워크플로(Amazon MWAA)

정답: Suggested Answer:
B

==================================================

=== 문제 7 ===
문제: 금융 서비스 회사는 Amazon Redshift에 금융 데이터를 저장합니다. 데이터 엔지니어는 웹 기반 거래 애플리케이션을 지원하기 위해 금융
데이터에 대해 실시간 쿼리를 실행하려고 합니다. 데이터 엔지니어는 거래 애플리케이션 내에서 쿼리를 실행하려고 합니다. 최소한의 운영 오버헤드로
이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Redshift에 대한 WebSocket 연결을 설정합니다.
B. Amazon Redshift 데이터 API를 사용하십시오.
C. Amazon Redshift에 대한 JDBC(Java Database Connectivity) 연결을 설정합니다.
D. 자주 액세스하는 데이터를 Amazon S3에 저장합니다. Amazon S3 Select를 사용하여 쿼리를 실행합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 8 ===
문제: 한 회사는 Amazon S3에 있는 데이터에 대한 일회성 쿼리를 위해 Amazon Athena를 사용합니다. 회사에는 여러 가지 사용 사례가
있습니다. 회사는 동일한 AWS 계정에 있는 사용자, 팀 및 애플리케이션 간의 쿼리 프로세스와 쿼리 기록에 대한 액세스를 분리하기 위한 권한
제어를 구현해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 각 사용 사례에 대해 S3 버킷을 생성합니다. 적절한 개별 IAM 사용자에게 권한을 부여하는 S3 버킷 정책을 생성합니다. S3 버킷
정책을 S3 버킷에 적용합니다.
B. 각 사용 사례에 대해 Athena 작업 그룹을 생성합니다. 작업그룹에 태그를 적용합니다. 태그를 사용하여 작업 그룹에 적절한 권한을
적용하는 IAM 정책을 생성합니다.
C. 각 사용 사례에 대한 IAM 역할을 생성합니다. 각 사용 사례의 역할에 적절한 권한을 할당합니다. 역할을 Athena와 연결합니다.
D. 각 사용 사례에 대해 적절한 개별 IAM 사용자에게 권한을 부여하는 AWS Glue 데이터 카탈로그 리소스 정책을 생성합니다.
Athena가 사용하는 특정 테이블에 리소스 정책을 적용합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 9 ===
문제: 데이터 엔지니어는 매일 일련의 AWS Glue 작업을 실행하는 워크플로를 예약해야 합니다. 데이터 엔지니어는 특정 시간에 Glue 작업을
실행하거나 완료할 필요가 없습니다. 가장 비용 효율적인 방식으로 Glue 작업을 실행하는 솔루션은 무엇입니까?

답변 목록:
A. Glue 작업 속성에서 FLEX 실행 클래스를 선택합니다.
B. Glue 작업 속성에서 스팟 인스턴스 유형을 사용합니다.
C. Glue 작업 속성에서 STANDARD 실행 클래스를 선택합니다.
D. Glue 작업 속성의 GlueVersion 필드에서 최신 버전을 선택합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 10 ===
문제: 데이터 엔지니어는 데이터 형식을 .csv에서 Apache Parquet로 변환하는 AWS Lambda 함수를 생성해야 합니다. Lambda
함수는 사용자가 .csv 파일을 Amazon S3 버킷에 업로드하는 경우에만 실행되어야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을
충족하는 솔루션은 무엇입니까?

답변 목록:
A. 이벤트 유형이 s3:ObjectCreated:*인 S3 이벤트 알림을 생성합니다. 접미사에 .csv가 포함된 경우에만 알림을 생성하려면
필터 규칙을 사용하세요. Lambda 함수의 Amazon 리소스 이름(ARN)을 이벤트 알림 대상으로 설정합니다.
B. 태그가 .csv로 설정된 객체에 대해 이벤트 유형이 s3:ObjectTagged:*인 S3 이벤트 알림을 생성합니다. Lambda 함수의
Amazon 리소스 이름(ARN)을 이벤트 알림 대상으로 설정합니다.
C. 이벤트 유형이 s3:*인 S3 이벤트 알림을 생성합니다. 접미사에 .csv가 포함된 경우에만 알림을 생성하려면 필터 규칙을 사용하세요.
Lambda 함수의 Amazon 리소스 이름(ARN)을 이벤트 알림 대상으로 설정합니다.
D. 이벤트 유형이 s3:ObjectCreated:*인 S3 이벤트 알림을 생성합니다. 접미사에 .csv가 포함된 경우에만 알림을 생성하려면
필터 규칙을 사용하세요. Amazon Simple 알림 서비스(Amazon SNS) 주제를 이벤트 알림 대상으로 설정합니다. SNS 주제에
Lambda 함수를 구독합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 11 ===
문제: 데이터 엔지니어가 더 빠르게 완료하려면 Amazon Athena 쿼리가 필요합니다. 데이터 엔지니어는 Athena 쿼리에서 사용하는 모든 파일이
현재 압축되지 않은 .csv 형식으로 저장되어 있음을 확인합니다. 또한 데이터 엔지니어는 사용자가 특정 열을 선택하여 대부분의 쿼리를 수행한다는
사실도 알아냈습니다. Athena 쿼리 성능을 가장 빠르게 향상시키는 솔루션은 무엇입니까?

답변 목록:
A. 데이터 형식을 .csv에서 JSON 형식으로 변경합니다. Snappy 압축을 적용합니다.
B. Snappy 압축을 사용하여 .csv 파일을 압축합니다.
C. 데이터 형식을 .csv에서 Apache Parquet로 변경합니다. Snappy 압축을 적용합니다.
D. gzip 압축을 사용하여 .csv 파일을 압축합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 12 ===
문제: 한 제조 회사는 운영 효율성을 모니터링하고 향상시키기 위해 공장 현장에서 센서 데이터를 수집합니다. 이 회사는 Amazon Kinesis
Data Streams를 사용하여 센서가 수집하는 데이터를 데이터 스트림에 게시합니다. 그런 다음 Amazon Kinesis Data
Firehose가 Amazon S3 버킷에 데이터를 씁니다. 회사는 제조 시설의 대형 화면에 운영 효율성을 실시간으로 표시해야 합니다. 가장
낮은 대기 시간으로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Apache Flink용 Amazon Managed Service(이전의 Amazon Kinesis Data Analytics)를 사용하여
센서 데이터를 처리합니다. Apache Flink용 커넥터를 사용하여 Amazon Timestream 데이터베이스에 데이터를 씁니다.
Timestream 데이터베이스를 소스로 사용하여 Grafana 대시보드를 생성합니다.
B. 새 객체가 생성되면 AWS Lambda 함수에 알림을 보내도록 S3 버킷을 구성합니다. Lambda 함수를 사용하여 Amazon
Aurora에 데이터를 게시합니다. Aurora를 소스로 사용하여 Amazon QuickSight 대시보드를 생성하십시오.
C. Apache Flink용 Amazon Managed Service(이전의 Amazon Kinesis Data Analytics)를 사용하여
센서 데이터를 처리합니다. 새로운 Data Firehose 전송 스트림을 생성하여 Amazon Timestream 데이터베이스에 직접 데이터를
게시합니다. Timestream 데이터베이스를 소스로 사용하여 Amazon QuickSight 대시보드를 생성합니다.
D. AWS Glue 북마크를 사용하면 S3 버킷에서 센서 데이터를 실시간으로 읽을 수 있습니다. Amazon Timestream 데이터베이스에
데이터를 게시합니다. Timestream 데이터베이스를 소스로 사용하여 Grafana 대시보드를 생성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 13 ===
문제: 회사는 투자 포트폴리오의 재무 성과에 대한 일일 기록을 Amazon S3 버킷에 .csv 형식으로 저장합니다. 데이터 엔지니어는 AWS Glue
크롤러를 사용하여 S3 데이터를 크롤링합니다. 데이터 엔지니어는 AWS Glue 데이터 카탈로그에서 매일 S3 데이터에 액세스할 수 있도록 해야
합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. AmazonS3FullAccess 정책을 포함하는 IAM 역할을 생성합니다. 역할을 크롤러와 연결합니다. 소스 데이터의 S3 버킷 경로를
크롤러의 데이터 저장소로 지정합니다. 크롤러를 실행하는 일일 일정을 만듭니다. 출력 대상을 기존 S3 버킷의 새 경로로 구성합니다.
B. AWSGlueServiceRole 정책을 포함하는 IAM 역할을 생성합니다. 역할을 크롤러와 연결합니다. 소스 데이터의 S3 버킷 경로를
크롤러의 데이터 저장소로 지정합니다. 크롤러를 실행하는 일일 일정을 만듭니다. 출력에 대한 데이터베이스 이름을 지정합니다.
C. AmazonS3FullAccess 정책을 포함하는 IAM 역할을 생성합니다. 역할을 크롤러와 연결합니다. 소스 데이터의 S3 버킷 경로를
크롤러의 데이터 저장소로 지정합니다. 매일 크롤러를 실행하기 위해 데이터 처리 장치(DPU)를 할당합니다. 출력에 대한 데이터베이스 이름을
지정합니다.
D. AWSGlueServiceRole 정책을 포함하는 IAM 역할을 생성합니다. 역할을 크롤러와 연결합니다. 소스 데이터의 S3 버킷 경로를
크롤러의 데이터 저장소로 지정합니다. 매일 크롤러를 실행하기 위해 데이터 처리 장치(DPU)를 할당합니다. 출력 대상을 기존 S3 버킷의 새
경로로 구성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 14 ===
문제: 회사는 하루가 끝날 때마다 Amazon Redshift 테이블에 매일의 거래 데이터를 로드합니다. 회사에서는 로드된 테이블과 아직 로드해야 하는
테이블을 추적할 수 있는 기능을 원합니다. 데이터 엔지니어는 Amazon DynamoDB 테이블에 Redshift 테이블의 로드 상태를
저장하려고 합니다. 데이터 엔지니어는 AWS Lambda 함수를 생성하여 로드 상태의 세부 정보를 DynamoDB에 게시합니다. 데이터
엔지니어는 DynamoDB 테이블에 로드 상태를 기록하기 위해 어떻게 Lambda 함수를 호출해야 합니까?

답변 목록:
A. 두 번째 Lambda 함수를 사용하여 Amazon CloudWatch 이벤트를 기반으로 첫 번째 Lambda 함수를 호출합니다.
B. Amazon Redshift Data API를 사용하여 Amazon EventBridge에 이벤트를 게시합니다. Lambda 함수를
호출하도록 EventBridge 규칙을 구성합니다.
C. Amazon Redshift Data API를 사용하여 Amazon Simple Queue Service(Amazon SQS) 대기열에
메시지를 게시합니다. Lambda 함수를 호출하도록 SQS 대기열을 구성합니다.
D. 두 번째 Lambda 함수를 사용하여 AWS CloudTrail 이벤트를 기반으로 첫 번째 Lambda 함수를 호출합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 15 ===
문제: 데이터 엔지니어는 온프레미스 데이터 센터에서 Amazon S3 버킷으로 5TB의 데이터를 안전하게 전송해야 합니다. 매일 약 5%의 데이터가
변경됩니다. 데이터 업데이트는 S3 버킷에 정기적으로 확산되어야 합니다. 데이터에는 다양한 형식의 파일이 포함됩니다. 데이터 엔지니어는 전송
프로세스를 자동화해야 하며 프로세스가 정기적으로 실행되도록 예약해야 합니다. 데이터 엔지니어는 운영상 가장 효율적인 방식으로 데이터를 전송하기
위해 어떤 AWS 서비스를 사용해야 합니까?

답변 목록:
A. AWS 데이터싱크
B. AWS 글루
C. AWS 다이렉트 커넥트
D. Amazon S3 전송 가속화

정답: Suggested Answer:
A

==================================================

=== 문제 16 ===
문제: 회사에서는 온프레미스 Microsoft SQL Server 데이터베이스를 사용하여 금융 거래 데이터를 저장합니다. 회사는 매월 말에 온프레미스
데이터베이스의 거래 데이터를 AWS로 마이그레이션합니다. 회사는 온프레미스 데이터베이스에서 SQL Server용 Amazon RDS
데이터베이스로 데이터를 마이그레이션하는 비용이 최근 증가했다는 사실을 확인했습니다. 회사는 데이터를 AWS로 마이그레이션하기 위해 비용 효율적인
솔루션이 필요합니다. 솔루션은 데이터베이스에 액세스하는 애플리케이션에 대한 다운타임을 최소화해야 합니다. 이러한 요구 사항을 충족하려면 회사에서
어떤 AWS 서비스를 사용해야 합니까?

답변 목록:
A. AWS 람다
B. AWS 데이터베이스 마이그레이션 서비스(AWS DMS)
C. AWS 다이렉트 커넥트
D. AWS 데이터싱크

정답: Suggested Answer:
B

==================================================

=== 문제 17 ===
문제: 데이터 엔지니어는 AWS Glue ETL(추출, 변환 및 로드) 작업을 사용하여 AWS에서 데이터 파이프라인을 구축하고 있습니다. 데이터
엔지니어는 Amazon RDS 및 MongoDB의 데이터를 처리하고, 변환을 수행하고, 분석을 위해 변환된 데이터를 Amazon
Redshift에 로드해야 합니다. 데이터 업데이트는 매시간 발생해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 작업 조합은
무엇입니까? (2개를 선택하세요.)

답변 목록:
A. 매시간 ETL 작업을 실행하도록 AWS Glue 트리거를 구성합니다.
B. AWS Glue DataBrew를 사용하여 분석용 데이터를 정리하고 준비합니다.
C. AWS Lambda 함수를 사용하여 매시간 ETL 작업을 예약하고 실행합니다.
D. AWS Glue 연결을 사용하여 데이터 소스와 Amazon Redshift 간의 연결을 설정합니다.
E. Redshift Data API를 사용하여 변환된 데이터를 Amazon Redshift로 로드합니다.

정답: Suggested Answer:
AD

==================================================

=== 문제 18 ===
문제: 한 회사는 RA3 노드에서 실행되는 Amazon Redshift 클러스터를 사용합니다. 회사는 수요에 맞춰 읽기 및 쓰기 용량을 확장하려고
합니다. 데이터 엔지니어는 동시성 확장을 활성화하는 솔루션을 식별해야 합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Redshift 서버리스 작업 그룹에 대한 워크로드 관리(WLM)에서 동시성 확장을 활성화합니다.
B. Redshift 클러스터의 워크로드 관리(WLM) 대기열 수준에서 동시성 확장을 활성화합니다.
C. 새로운 Redshift 클러스터를 생성하는 동안 설정에서 동시성 확장을 활성화합니다.
D. Redshift 클러스터의 일일 사용 할당량에 대한 동시성 확장을 활성화합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 19 ===
문제: 데이터 엔지니어는 매일 실행되는 일련의 Amazon Athena 쿼리를 조율해야 합니다. 각 쿼리는 15분 이상 실행될 수 있습니다. 이러한
요구 사항을 가장 비용 효율적으로 충족하는 단계 조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. AWS Lambda 함수와 Athena Boto3 클라이언트 start_query_execution API 호출을 사용하여 Athena
쿼리를 프로그래밍 방식으로 호출합니다.
B. AWS Step Functions 워크플로를 생성하고 두 가지 상태를 추가합니다. Lambda 함수 앞에 첫 번째 상태를 추가합니다. 두
번째 상태를 대기 상태로 구성하여 Athena Boto3 get_query_execution API 호출을 사용하여 Athena 쿼리가
완료되었는지 주기적으로 확인합니다. 현재 쿼리 실행이 완료되면 다음 쿼리를 호출하도록 워크플로를 구성합니다.
C. AWS Glue Python 셸 작업과 Athena Boto3 클라이언트 start_query_execution API 호출을 사용하여
프로그래밍 방식으로 Athena 쿼리를 호출합니다.
D. AWS Glue Python 셸 스크립트를 사용하여 5분마다 확인하는 절전 타이머를 실행하여 현재 Athena 쿼리 실행이 성공적으로
완료되었는지 확인합니다. 현재 쿼리 실행이 완료되면 다음 쿼리를 호출하도록 Python 셸 스크립트를 구성합니다.
E. Amazon Managed Workflows for Apache Airflow(Amazon MWAA)를 사용하여 AWS Batch에서
Athena 쿼리를 조정합니다.

정답: Suggested Answer:
AB

==================================================

=== 문제 20 ===
문제: 회사에서 온프레미스 워크로드를 AWS로 마이그레이션하고 있습니다. 회사는 전반적인 운영 오버헤드를 줄이고 싶어합니다. 또한 회사는 서버리스
옵션도 살펴보고 싶어합니다. 회사의 현재 워크로드는 Apache Pig, Apache Oozie, Apache Spark, Apache
Hbase 및 Apache Flink를 사용합니다. 온프레미스 워크로드는 페타바이트 규모의 데이터를 몇 초 만에 처리합니다. 회사는 AWS로
마이그레이션한 후에도 유사하거나 더 나은 성능을 유지해야 합니다. 이러한 요구 사항을 충족하는 ETL(추출, 변환 및 로드) 서비스는
무엇입니까?

답변 목록:
A. AWS 글루
B. 아마존 EMR
C. AWS 람다
D. 아마존 레드시프트

정답: Suggested Answer:
B

==================================================

=== 문제 21 ===
문제: 데이터 엔지니어는 AWS 서비스를 사용하여 데이터 세트를 Amazon S3 데이터 레이크로 수집해야 합니다. 데이터 엔지니어는 데이터 세트를
프로파일링하고 데이터 세트에 개인 식별 정보(PII)가 포함되어 있음을 발견합니다. 데이터 엔지니어는 데이터 세트를 프로파일링하고 PII를
난독화하는 솔루션을 구현해야 합니다. 최소한의 운영 노력으로 이 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Kinesis Data Firehose 전송 스트림을 사용하여 데이터세트를 처리합니다. PII를 식별하기 위해 AWS
Lambda 변환 함수를 생성합니다. AWS SDK를 사용하여 PII를 난독화합니다. S3 데이터 레이크를 전송 스트림의 대상으로 설정합니다.
B. PII를 식별하려면 AWS Glue Studio에서 PII 감지 변환을 사용하십시오. PII를 난독화합니다. AWS Step
Functions 상태 시스템을 사용하여 데이터 파이프라인을 조정하여 데이터를 S3 데이터 레이크로 수집합니다.
C. PII를 식별하려면 AWS Glue Studio에서 PII 감지 변환을 사용하십시오. AWS Glue 데이터 품질에서 PII를 난독화하는
규칙을 생성합니다. AWS Step Functions 상태 시스템을 사용하여 데이터 파이프라인을 조정하여 데이터를 S3 데이터 레이크로
수집합니다.
D. 데이터 세트를 Amazon DynamoDB로 수집합니다. DynamoDB 테이블에서 PII를 식별 및 난독화하고 데이터를 변환하는 AWS
Lambda 함수를 생성합니다. 동일한 Lambda 함수를 사용하여 데이터를 S3 데이터 레이크로 수집합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 22 ===
문제: 회사는 회사 운영 데이터베이스의 데이터를 Amazon S3 기반 데이터 레이크로 수집하는 여러 추출, 변환 및 로드(ETL) 워크플로를 유지
관리합니다. ETL 워크플로는 AWS Glue 및 Amazon EMR을 사용하여 데이터를 처리합니다. 회사는 자동화된 조정을 제공하고 수동
작업을 최소화하기 위해 기존 아키텍처를 개선하려고 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue 워크플로
B. AWS Step Functions 작업
C. AWS 람다 함수
D. Apache Airflow용 Amazon 관리형 워크플로(Amazon MWAA) 워크플로

정답: Suggested Answer:
B

==================================================

=== 문제 23 ===
문제: 현재 한 회사는 S3 Standard 스토리지 클래스를 사용하여 Amazon S3에 모든 데이터를 저장하고 있습니다. 데이터 엔지니어가 데이터
액세스 패턴을 조사하여 추세를 파악했습니다. 처음 6개월 동안 대부분의 데이터 파일은 매일 여러 번 액세스됩니다. 6개월에서 2년 사이에는
대부분의 데이터 파일에 한 달에 한두 번 액세스됩니다. 2년이 지나면 데이터 파일은 1년에 한두 번만 액세스됩니다. 데이터 엔지니어는 S3 수명
주기 정책을 사용하여 새로운 데이터 스토리지 규칙을 개발해야 합니다. 새로운 스토리지 솔루션은 계속해서 고가용성을 제공해야 합니다. 가장 비용
효율적인 방식으로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 6개월 후에 객체를 S3 One Zone-Infrequent Access(S3 One Zone-IA)로 전환합니다. 2년 후에 객체를 S3
Glacier 유연한 검색으로 전송합니다.
B. 6개월 후에 객체를 S3 Standard-Infrequent Access(S3 Standard-IA)로 전환합니다. 2년 후에 객체를 S3
Glacier 유연한 검색으로 전송합니다.
C. 6개월 후에 객체를 S3 Standard-Infrequent Access(S3 Standard-IA)로 전환합니다. 2년 후에 객체를 S3
Glacier Deep Archive로 전송합니다.
D. 6개월 후에 객체를 S3 One Zone-Infrequent Access(S3 One Zone-IA)로 전환합니다. 2년 후에 객체를 S3
Glacier Deep Archive로 전송합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 24 ===
문제: 회사는 중요한 분석 작업을 지원하기 위해 ETL(추출, 변환 및 로드) 작업에 사용하는 Amazon Redshift 프로비저닝 클러스터를 유지
관리합니다. 회사 내의 영업팀은 영업팀이 비즈니스 인텔리전스(BI) 작업에 사용하는 Redshift 클러스터를 유지 관리합니다. 영업팀은 최근
팀이 주간 요약 분석 작업을 수행할 수 있도록 ETL Redshift 클러스터에 있는 데이터에 대한 액세스를 요청했습니다. 영업팀은 ETL
클러스터의 데이터를 영업팀의 BI 클러스터에 있는 데이터와 결합해야 합니다. 회사에는 중요한 분석 작업을 중단하지 않고 ETL 클러스터 데이터를
영업팀과 공유할 수 있는 솔루션이 필요합니다. 솔루션은 ETL 클러스터의 컴퓨팅 리소스 사용을 최소화해야 합니다. 어떤 솔루션이 이러한 요구
사항을 충족합니까?

답변 목록:
A. Redshift 데이터 공유를 사용하여 영업팀 BI 클러스터를 ETL 클러스터의 소비자로 설정합니다.
B. 영업팀의 요구 사항에 따라 구체화된 뷰를 생성합니다. 영업팀에 ETL 클러스터에 대한 직접 액세스 권한을 부여합니다.
C. 영업팀의 요구 사항에 따라 데이터베이스 보기를 만듭니다. 영업팀에 ETL 클러스터에 대한 직접 액세스 권한을 부여합니다.
D. 매주 ETL 클러스터의 데이터 복사본을 Amazon S3 버킷으로 언로드합니다. ETL 클러스터의 콘텐츠를 기반으로 Amazon
Redshift Spectrum 테이블을 생성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 25 ===
문제: 데이터 엔지니어는 일회성 분석 작업을 수행하기 위해 여러 소스의 데이터를 결합해야 합니다. 데이터는 Amazon DynamoDB, Amazon
RDS, Amazon Redshift 및 Amazon S3에 저장됩니다. 이 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon EMR 프로비저닝 클러스터를 사용하여 모든 소스에서 읽습니다. Apache Spark를 사용하여 데이터를 결합하고 분석을
수행합니다.
B. DynamoDB, Amazon RDS 및 Amazon Redshift의 데이터를 Amazon S3에 복사합니다. S3 파일에서 직접
Amazon Athena 쿼리를 실행합니다.
C. Amazon Athena Federated Query를 사용하여 모든 데이터 소스의 데이터를 조인합니다.
D. Redshift Spectrum을 사용하면 Redshift에서 직접 DynamoDB, Amazon RDS 및 Amazon S3의 데이터를
쿼리할 수 있습니다.

정답: Suggested Answer:
C

==================================================

=== 문제 26 ===
문제: 한 회사는 Apache Spark 작업을 실행하는 프로비저닝된 Amazon EMR 클러스터를 사용하여 빅 데이터 분석을 수행할 계획입니다.
회사는 높은 신뢰성을 요구합니다. 빅 데이터 팀은 Amazon EMR에서 비용 최적화된 장기 실행 워크로드를 실행하기 위한 모범 사례를 따라야
합니다. 팀은 회사의 현재 성과 수준을 유지할 수 있는 솔루션을 찾아야 합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족할 수 있는 리소스
조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. HDFS(Hadoop 분산 파일 시스템)를 영구 데이터 저장소로 사용합니다.
B. Amazon S3를 영구 데이터 저장소로 사용합니다.
C. 코어 노드 및 작업 노드에 x86 기반 인스턴스를 사용합니다.
D. 코어 노드 및 작업 노드에 Graviton 인스턴스를 사용합니다.
E. 모든 기본 노드에 스팟 인스턴스를 사용합니다.

정답: Suggested Answer:
BD

==================================================

=== 문제 27 ===
문제: 회사에서는 실시간 분석 기능을 구현하려고 합니다. 이 회사는 Amazon Kinesis Data Streams 및 Amazon Redshift를
사용하여 초당 수 기가바이트의 속도로 스트리밍 데이터를 수집하고 처리하려고 합니다. 회사는 기존 비즈니스 인텔리전스(BI) 및 분석 도구를
사용하여 실시간에 가까운 통찰력을 얻고자 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Kinesis Data Streams를 사용하여 Amazon S3에서 데이터를 준비합니다. COPY 명령을 사용하여 Amazon S3의
데이터를 Amazon Redshift로 직접 로드하면 데이터를 실시간 분석에 즉시 사용할 수 있습니다.
B. SQL 쿼리를 사용하여 Kinesis Data Streams의 데이터에 액세스합니다. 스트림 상단에 직접 구체화된 뷰를 생성합니다. 가장
최근의 스트림 데이터를 쿼리하려면 구체화된 뷰를 정기적으로 새로 고치세요.
C. Amazon Redshift에서 외부 스키마를 생성하여 Kinesis Data Streams의 데이터를 Amazon Redshift 객체에
매핑합니다. 스트림에서 데이터를 읽으려면 구체화된 뷰를 만듭니다. 구체화된 뷰를 자동 새로 고침으로 설정합니다.
D. Kinesis Data Streams를 Amazon Kinesis Data Firehose에 연결합니다. Kinesis Data
Firehose를 사용하여 Amazon S3에 데이터를 준비합니다. COPY 명령을 사용하여 Amazon S3의 데이터를 Amazon
Redshift의 테이블에 로드합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 28 ===
문제: 회사는 Amazon QuickSight 대시보드를 사용하여 회사 애플리케이션 중 하나의 사용량을 모니터링합니다. 회사는 AWS Glue 작업을
사용하여 대시보드용 데이터를 처리합니다. 회사는 단일 Amazon S3 버킷에 데이터를 저장합니다. 회사는 매일 새로운 데이터를 추가합니다.
데이터 엔지니어는 시간이 지남에 따라 대시보드 쿼리가 느려지는 것을 발견했습니다. 데이터 엔지니어는 쿼리 속도 저하의 근본 원인이 장기 실행
AWS Glue 작업이라고 판단합니다. AWS Glue 작업의 성능을 향상시키기 위해 데이터 엔지니어는 어떤 조치를 취해야 합니까? (2개를
선택하세요.)

답변 목록:
A. S3 버킷에 있는 데이터를 분할합니다. 데이터를 연도, 월, 일별로 정리합니다.
B. 작업자 유형을 확장하여 AWS Glue 인스턴스 크기를 늘립니다.
C. AWS Glue 스키마를 DynamicFrame 스키마 클래스로 변환합니다.
D. 작업이 매일 절반의 횟수로 실행되도록 AWS Glue 작업 예약 빈도를 조정합니다.
E. 모든 S3 기능에 대한 액세스 권한을 부여하려면 AWS Glue에 대한 액세스 권한을 부여하는 IAM 역할을 수정합니다.

정답: Suggested Answer:
AB

==================================================

=== 문제 29 ===
문제: 데이터 엔지니어는 AWS Step Functions를 사용하여 오케스트레이션 워크플로를 설계해야 합니다. 워크플로우는 대규모 데이터 파일 모음을
병렬로 처리하고 각 파일에 특정 변환을 적용해야 합니다. 데이터 엔지니어가 이러한 요구 사항을 충족하려면 어떤 Step Functions 상태를
사용해야 합니까?

답변 목록:
A. 병렬 상태
B. 선택 상태
C. 지도 상태
D. 대기 상태

정답: Suggested Answer:
C

==================================================

=== 문제 30 ===
문제: 한 회사가 레거시 애플리케이션을 Amazon S3 기반 데이터 레이크로 마이그레이션하고 있습니다. 데이터 엔지니어가 레거시 애플리케이션과 연결된
데이터를 검토했습니다. 데이터 엔지니어는 레거시 데이터에 일부 중복된 정보가 포함되어 있음을 발견했습니다. 데이터 엔지니어는 레거시 애플리케이션
데이터에서 중복 정보를 식별하고 제거해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Python에서 사용자 지정 추출, 변환 및 로드(ETL) 작업을 작성합니다. 데이터 중복 제거를 수행하려면 Pandas 라이브러리를
가져와 DataFrame.drop_duplicates() 함수를 사용하세요.
B. AWS Glue ETL(추출, 변환 및 로드) 작업을 작성합니다. FindMatches 기계 학습(ML) 변환을 사용하여 데이터 중복
제거를 수행하도록 데이터를 변환합니다.
C. Python에서 사용자 지정 추출, 변환 및 로드(ETL) 작업을 작성합니다. Python 중복 제거 라이브러리를 가져옵니다. 데이터 중복
제거를 수행하려면 중복 제거 라이브러리를 사용하십시오.
D. AWS Glue ETL(추출, 변환 및 로드) 작업을 작성합니다. Python 중복 제거 라이브러리를 가져옵니다. 데이터 중복 제거를
수행하려면 중복 제거 라이브러리를 사용하십시오.

정답: Suggested Answer:
B

==================================================

=== 문제 31 ===
문제: 한 회사에서 분석 솔루션을 구축하고 있습니다. 이 솔루션은 데이터 레이크 스토리지로 Amazon S3를 사용하고 데이터 웨어하우스로 Amazon
Redshift를 사용합니다. 회사는 Amazon Redshift Spectrum을 사용하여 Amazon S3에 있는 데이터를 쿼리하려고
합니다. 가장 빠른 쿼리를 제공하는 작업은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. 개별 파일을 1GB에서 5GB 사이의 크기로 압축하려면 gzip 압축을 사용하세요.
B. 열 기반 저장 파일 형식을 사용합니다.
C. 가장 일반적인 쿼리 조건자를 기반으로 데이터를 분할합니다.
D. 데이터를 10KB 미만의 파일로 분할합니다.
E. 분할할 수 없는 파일 형식을 사용하십시오.

정답: Suggested Answer:
BC

==================================================

=== 문제 32 ===
문제: 회사는 Amazon RDS를 사용하여 거래 데이터를 저장합니다. 회사는 프라이빗 서브넷에서 RDS DB 인스턴스를 실행합니다. 개발자는 DB
인스턴스에 데이터를 삽입, 업데이트 또는 삭제하기 위한 기본 설정으로 AWS Lambda 함수를 작성했습니다. 개발자는 공용 인터넷을 사용하지
않고 DB 인스턴스에 비공개로 연결할 수 있는 기능을 Lambda 함수에 제공해야 합니다. 최소한의 운영 오버헤드로 이 요구 사항을 충족하는
단계 조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. DB 인스턴스에 대한 퍼블릭 액세스 설정을 활성화합니다.
B. 데이터베이스 포트에서 Lambda 함수 호출만 허용하도록 DB 인스턴스의 보안 그룹을 업데이트합니다.
C. DB 인스턴스가 사용하는 것과 동일한 서브넷에서 실행되도록 Lambda 함수를 구성합니다.
D. 동일한 보안 그룹을 Lambda 함수와 DB 인스턴스에 연결합니다. 데이터베이스 포트를 통한 액세스를 허용하는 자체 참조 규칙을
포함합니다.
E. 데이터베이스 포트를 통한 액세스를 허용하는 자체 참조 규칙을 포함하도록 프라이빗 서브넷의 네트워크 ACL을 업데이트합니다.

정답: Suggested Answer:
CD

==================================================

=== 문제 33 ===
문제: 회사에는 Amazon API Gateway를 사용하여 REST API를 호출하는 프런트엔드 ReactJS 웹 사이트가 있습니다. API는
웹사이트의 기능을 수행합니다. 데이터 엔지니어는 API 게이트웨이를 통해 가끔 호출될 수 있는 Python 스크립트를 작성해야 합니다. 코드는
API Gateway에 결과를 반환해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Elastic Container Service(Amazon ECS) 클러스터에 사용자 지정 Python 스크립트를 배포합니다.
B. 동시성을 프로비저닝하여 AWS Lambda Python 함수를 생성합니다.
C. Amazon Elastic Kubernetes Service(Amazon EKS)에서 API 게이트웨이와 통합할 수 있는 사용자 지정
Python 스크립트를 배포합니다.
D. AWS Lambda 함수를 생성합니다. 모의 이벤트를 사용하여 5분마다 Lambda 함수를 호출하도록 Amazon EventBridge
규칙을 예약하여 함수가 웜 상태인지 확인하세요.

정답: Suggested Answer:
B

==================================================

=== 문제 34 ===
문제: 회사에는 회사 워크로드를 실행하는 프로덕션 AWS 계정이 있습니다. 회사의 보안팀은 프로덕션 AWS 계정의 보안 로그를 저장하고 분석하기 위해
보안 AWS 계정을 만들었습니다. 프로덕션 AWS 계정의 보안 로그는 Amazon CloudWatch Logs에 저장됩니다. 회사는 Amazon
Kinesis Data Streams를 사용하여 보안 AWS 계정에 보안 로그를 전달해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 프로덕션 AWS 계정에서 대상 데이터 스트림을 생성합니다. 보안 AWS 계정에서 프로덕션 AWS 계정의 Kinesis Data
Streams에 대한 교차 계정 권한이 있는 IAM 역할을 생성합니다.
B. 보안 AWS 계정에서 대상 데이터 스트림을 생성합니다. IAM 역할과 신뢰 정책을 생성하여 CloudWatch Logs에 데이터를 스트림에
넣을 수 있는 권한을 부여합니다. 보안 AWS 계정에 구독 필터를 생성합니다.
C. 프로덕션 AWS 계정에서 대상 데이터 스트림을 생성합니다. 프로덕션 AWS 계정에서 보안 AWS 계정의 Kinesis Data
Streams에 대한 교차 계정 권한이 있는 IAM 역할을 생성합니다.
D. 보안 AWS 계정에서 대상 데이터 스트림을 생성합니다. IAM 역할과 신뢰 정책을 생성하여 CloudWatch Logs에 데이터를 스트림에
넣을 수 있는 권한을 부여합니다. 프로덕션 AWS 계정에서 구독 필터를 생성합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 35 ===
문제: 한 회사는 Amazon S3를 사용하여 트랜잭션 데이터 레이크에 반구조화된 데이터를 저장합니다. 일부 데이터 파일은 작지만 다른 데이터 파일은
수십 테라바이트입니다. 데이터 엔지니어는 변경 데이터 캡처(CDC) 작업을 수행하여 데이터 원본에서 변경된 데이터를 식별해야 합니다. 데이터
소스는 매일 전체 스냅샷을 JSON 파일로 전송하고 변경된 데이터를 데이터 레이크에 수집합니다. 변경된 데이터를 가장 비용 효율적으로 캡처하는
솔루션은 무엇입니까?

답변 목록:
A. 이전 데이터와 현재 데이터 간의 변경 사항을 식별하는 AWS Lambda 함수를 생성합니다. 데이터 레이크에 변경 사항을 수집하도록
Lambda 함수를 구성합니다.
B. MySQL용 Amazon RDS로 데이터를 수집합니다. AWS Database Migration Service(AWS DMS)를 사용하여
변경된 데이터를 데이터 레이크에 씁니다.
C. 오픈 소스 데이터 레이크 형식을 사용하여 데이터 소스를 S3 데이터 레이크와 병합하여 새 데이터를 삽입하고 기존 데이터를 업데이트합니다.
D. Aurora Serverless를 실행하는 Amazon Aurora MySQL DB 인스턴스로 데이터를 수집합니다. AWS Database
Migration Service(AWS DMS)를 사용하여 변경된 데이터를 데이터 레이크에 씁니다.

정답: Suggested Answer:
C

==================================================

=== 문제 36 ===
문제: 데이터 엔지니어는 Amazon S3 버킷에 있는 데이터에 대해 Amazon Athena 쿼리를 실행합니다. Athena 쿼리는 AWS Glue
데이터 카탈로그를 메타데이터 테이블로 사용합니다. 데이터 엔지니어는 Athena 쿼리 계획에 성능 병목 현상이 발생하고 있음을 발견했습니다.
데이터 엔지니어는 성능 병목 현상의 원인이 S3 버킷에 있는 많은 수의 파티션이라고 판단합니다. 데이터 엔지니어는 성능 병목 현상을 해결하고
Athena 쿼리 계획 시간을 줄여야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까? (2개를 선택하세요.)

답변 목록:
A. AWS Glue 파티션 인덱스를 생성합니다. 파티션 필터링을 활성화합니다.
B. 사용자 쿼리의 WHERE 절에서 데이터가 공통으로 갖는 열을 기준으로 데이터를 버킷합니다.
C. S3 버킷 접두사를 기반으로 Athena 파티션 프로젝션을 사용합니다.
D. S3 버킷에 있는 데이터를 Apache Parquet 형식으로 변환합니다.
E. Amazon EMR S3DistCP 유틸리티를 사용하여 S3 버킷의 작은 객체를 더 큰 객체로 결합합니다.

정답: Suggested Answer:
AC

==================================================

=== 문제 37 ===
문제: 데이터 엔지니어는 AWS로의 실시간 스트리밍 데이터 수집을 관리해야 합니다. 데이터 엔지니어는 최대 30분 동안 시간 기반 집계를 사용하여 수신
스트리밍 데이터에 대해 실시간 분석을 수행하려고 합니다. 데이터 엔지니어에게는 내결함성이 뛰어난 솔루션이 필요합니다. 최소한의 운영 오버헤드로
이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 비즈니스 및 분석 로직이 모두 포함된 AWS Lambda 함수를 사용하여 Amazon Kinesis Data Streams의 데이터에 대해
최대 30분 동안 시간 기반 집계를 수행합니다.
B. Apache Flink용 Amazon Managed Service(이전의 Amazon Kinesis Data Analytics)를 사용하면
여러 유형의 집계를 통해 중복 항목이 포함될 수 있는 데이터를 분석할 수 있습니다.
C. 비즈니스 및 분석 로직을 모두 포함하는 AWS Lambda 함수를 사용하여 이벤트 타임스탬프를 기준으로 최대 30분의 텀블링 윈도우에 대한
집계를 수행합니다.
D. Apache Flink용 Amazon Managed Service(이전의 Amazon Kinesis Data Analytics)를 사용하면
여러 유형의 집계를 사용하여 최대 30분 동안 시간 기반 분석을 수행함으로써 데이터를 분석할 수 있습니다.

정답: Suggested Answer:
D

==================================================

=== 문제 38 ===
문제: 한 회사는 Amazon Elastic Block Store(Amazon EBS) 범용 SSD 스토리지를 gp2에서 gp3로 업그레이드할
계획입니다. 회사는 업그레이드된 스토리지로 마이그레이션하는 동안 데이터 손실을 일으킬 수 있는 Amazon EC2 인스턴스의 중단을 방지하려고
합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. gp2 볼륨의 스냅샷을 생성합니다. 스냅샷에서 새 gp3 볼륨을 생성합니다. 새 gp3 볼륨을 EC2 인스턴스에 연결합니다.
B. 새로운 gp3 볼륨을 생성합니다. 점차적으로 데이터를 새로운 gp3 볼륨으로 전송합니다. 전송이 완료되면 새 gp3 볼륨을 EC2
인스턴스에 탑재하여 gp2 볼륨을 교체합니다.
C. 기존 gp2 볼륨의 볼륨 유형을 gp3으로 변경합니다. 볼륨 크기, IOPS 및 처리량에 대한 새 값을 입력합니다.
D. AWS DataSync를 사용하여 새 gp3 볼륨을 생성합니다. 원래 gp2 볼륨의 데이터를 새 gp3 볼륨으로 전송합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 39 ===
문제: 한 회사가 Microsoft SQL Server를 실행하는 Amazon EC2 인스턴스에서 Microsoft SQL Server DB 인스턴스용
Amazon RDS로 데이터베이스 서버를 마이그레이션하고 있습니다. 회사의 분석 팀은 마이그레이션이 완료될 때까지 매일 대규모 데이터 요소를
내보내야 합니다. 데이터 요소는 여러 테이블에 걸친 SQL 조인의 결과입니다. 데이터는 Apache Parquet 형식이어야 합니다. 분석 팀은
Amazon S3에 데이터를 저장해야 합니다. 어떤 솔루션이 운영상 가장 효율적인 방식으로 이러한 요구 사항을 충족합니까?

답변 목록:
A. 필요한 데이터 요소가 포함된 EC2 인스턴스 기반 SQL Server 데이터베이스에 뷰를 생성합니다. 보기에서 직접 데이터를 선택하고
Parquet 형식의 데이터를 S3 버킷으로 전송하는 AWS Glue 작업을 생성합니다. 매일 실행되도록 AWS Glue 작업을 예약합니다.
B. EC2 인스턴스 기반 SQL Server 데이터베이스에서 원하는 데이터 요소를 선택하는 일일 SQL 쿼리를 실행하도록 SQL Server
에이전트를 예약합니다. 출력 .csv 객체를 S3 버킷으로 보내도록 쿼리를 구성합니다. 출력 형식을 .csv에서 Parquet로 변환하기 위해
AWS Lambda 함수를 호출하는 S3 이벤트를 생성합니다.
C. SQL 쿼리를 사용하여 필요한 데이터 요소가 포함된 EC2 인스턴스 기반 SQL Server 데이터베이스에 보기를 생성합니다. 보기를
읽으려면 AWS Glue 크롤러를 생성하고 실행하세요. 데이터를 검색하고 Parquet 형식의 데이터를 S3 버킷으로 전송하는 AWS Glue
작업을 생성합니다. 매일 실행되도록 AWS Glue 작업을 예약합니다.
D. JDBC(Java Database Connectivity)를 사용하여 EC2 인스턴스 기반 데이터베이스를 쿼리하는 AWS Lambda
함수를 생성합니다. 필요한 데이터를 검색하고, 데이터를 Parquet 형식으로 변환하고, 데이터를 S3 버킷으로 전송하도록 Lambda 함수를
구성합니다. Amazon EventBridge를 사용하여 Lambda 함수가 매일 실행되도록 예약합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 40 ===
문제: 데이터 엔지니어링 팀은 운영 보고를 위해 Amazon Redshift 데이터 웨어하우스를 사용하고 있습니다. 팀에서는 장기 실행 쿼리로 인해
발생할 수 있는 성능 문제를 방지하려고 합니다. 데이터 엔지니어는 쿼리 최적화 프로그램이 성능 문제를 나타낼 수 있는 조건을 식별할 때 이상
현상을 기록하기 위해 Amazon Redshift에서 시스템 테이블을 선택해야 합니다. 이 요구 사항을 충족하려면 데이터 엔지니어가 어떤 테이블
보기를 사용해야 합니까?

답변 목록:
A. STL_USAGE_Control
B. STL_ALERT_EVENT_LOG
C. STL_QUERY_METRICS
D. STL_PLAN_INFO

정답: Suggested Answer:
B

==================================================

=== 문제 41 ===
문제: 데이터 엔지니어는 .csv 형식의 구조화된 데이터 소스를 Amazon S3 데이터 레이크로 수집해야 합니다. .csv 파일에는 15개의 열이
포함되어 있습니다. 데이터 분석가는 데이터 세트의 하나 또는 두 개의 열에 대해 Amazon Athena 쿼리를 실행해야 합니다. 데이터
분석가는 전체 파일을 쿼리하는 경우가 거의 없습니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue PySpark 작업을 사용하여 원본 데이터를 .csv 형식으로 데이터 레이크에 수집합니다.
B. .csv 구조화된 데이터 소스에서 읽을 AWS Glue 추출, 변환 및 로드(ETL) 작업을 생성합니다. 데이터를 JSON 형식으로 데이터
레이크에 수집하도록 작업을 구성합니다.
C. AWS Glue PySpark 작업을 사용하여 소스 데이터를 Apache Avro 형식의 데이터 레이크에 수집합니다.
D. .csv 구조화된 데이터 소스에서 읽을 AWS Glue 추출, 변환 및 로드(ETL) 작업을 생성합니다. Apache Parquet
형식으로 데이터 레이크에 데이터를 쓰도록 작업을 구성합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 42 ===
문제: 회사는 서로 다른 AWS 리전에 5개의 사무실을 가지고 있습니다. 각 사무실에는 고유한 IAM 역할을 사용하는 자체 인사(HR) 부서가
있습니다. 회사는 Amazon S3 스토리지를 기반으로 하는 데이터 레이크에 직원 기록을 저장합니다. 데이터 엔지니어링 팀은 기록에 대한
액세스를 제한해야 합니다. 각 HR 부서는 해당 HR 부서의 지역 내에 있는 직원의 기록에만 액세스할 수 있어야 합니다. 데이터 엔지니어링 팀은
최소한의 운영 오버헤드로 이 요구 사항을 충족하기 위해 어떤 단계 조합을 수행해야 합니까? (2개를 선택하세요.)

답변 목록:
A. 각 리전에 대한 데이터 필터를 사용하여 S3 경로를 데이터 위치로 등록합니다.
B. S3 경로를 AWS Lake Formation 위치로 등록합니다.
C. HR 부서의 IAM 역할을 수정하여 각 부서의 지역에 대한 데이터 필터를 추가합니다.
D. AWS Lake Formation에서 세분화된 액세스 제어를 활성화합니다. 각 지역에 대한 데이터 필터를 추가합니다.
E. 각 리전에 대해 별도의 S3 버킷을 생성합니다. S3 액세스를 허용하도록 IAM 정책을 구성합니다. 지역에 따라 액세스를 제한합니다.

정답: Suggested Answer:
BD

==================================================

=== 문제 43 ===
문제: 한 회사는 AWS Step Functions를 사용하여 데이터 파이프라인을 조정합니다. 파이프라인은 데이터 소스에서 데이터를 수집하고
Amazon S3 버킷에 데이터를 저장하는 Amazon EMR 작업으로 구성됩니다. 파이프라인에는 Amazon Redshift에 데이터를
로드하는 EMR 작업도 포함되어 있습니다. 회사의 클라우드 인프라 팀은 Step Functions 상태 시스템을 수동으로 구축했습니다. 클라우드
인프라 팀은 EMR 작업을 지원하기 위해 EMR 클러스터를 VPC로 시작했습니다. 그러나 배포된 Step Functions 상태 시스템은 EMR
작업을 실행할 수 없습니다. Step Functions 상태 시스템이 EMR 작업을 실행할 수 없는 이유를 확인하기 위해 회사는 어떤 단계
조합을 수행해야 합니까? (2개를 선택하세요.)

답변 목록:
A. AWS CloudFormation을 사용하여 Step Functions 상태 머신 배포를 자동화하세요. 실패한 EMR 작업 중에 상태
시스템을 일시 중지하는 단계를 생성합니다. 인간 사용자가 이메일 메시지를 통해 승인을 보낼 때까지 기다리는 단계를 구성합니다. 추가 분석을 위해
이메일 메시지에 EMR 작업의 세부 정보를 포함합니다.
B. Step Functions 상태 기계 코드에 EMR 작업을 생성하고 실행하는 데 필요한 모든 IAM 권한이 있는지 확인하십시오. Step
Functions 상태 머신 코드에 EMR 작업이 사용하는 Amazon S3 버킷에 액세스할 수 있는 IAM 권한도 포함되어 있는지
확인하십시오. S3용 액세스 분석기를 사용하여 S3 액세스 속성을 확인하세요.
C. 새로 생성된 EMR 클러스터에 대한 Amazon CloudWatch 항목을 확인합니다. EKS에서 Amazon EMR을 사용하도록 AWS
Step Functions 상태 기계 코드를 변경합니다. Amazon Elastic Kubernetes Service(Amazon EKS)의
포함을 반영하도록 Step Functions 상태 머신 코드에 대한 IAM 액세스 정책 및 보안 그룹 구성을 변경합니다.
D. VPC에 대한 흐름 로그를 쿼리합니다. EMR 클러스터에서 발생하는 트래픽이 데이터 공급자에 성공적으로 도달할 수 있는지 확인합니다.
Amazon EMR 클러스터에 연결될 수 있는 보안 그룹이 정보가 있는 포트에서 데이터 원본 서버에 대한 연결을 허용하는지 확인합니다.
E. 회사에서 EMR 작업에 대해 구성한 재시도 시나리오를 확인하세요. 각 EMR 작업 사이의 간격(초)을 늘립니다. 각 대체 상태에 각 결정
상태에 대한 적절한 catch가 있는지 확인합니다. 오류 메시지를 저장하도록 Amazon Simple 알림 서비스(Amazon SNS) 주제를
구성합니다.

정답: Suggested Answer:
BD

==================================================

=== 문제 44 ===
문제: 한 회사가 Amazon EC2 인스턴스에서 실행되는 애플리케이션을 개발하고 있습니다. 현재 애플리케이션이 생성하는 데이터는 일시적입니다. 그러나
회사는 EC2 인스턴스가 종료되더라도 데이터를 유지해야 합니다. 데이터 엔지니어는 Amazon 머신 이미지(AMI)에서 새 EC2 인스턴스를
시작하고 데이터를 보존하도록 인스턴스를 구성해야 합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 애플리케이션 데이터가 포함된 EC2 인스턴스 스토어 볼륨이 지원하는 AMI를 사용하여 새 EC2 인스턴스를 시작합니다. EC2 인스턴스에
기본 설정을 적용합니다.
B. 애플리케이션 데이터가 포함된 루트 Amazon Elastic Block Store(Amazon EBS) 볼륨이 지원하는 AMI를 사용하여
새 EC2 인스턴스를 시작합니다. EC2 인스턴스에 기본 설정을 적용합니다.
C. EC2 인스턴스 스토어 볼륨이 지원하는 AMI를 사용하여 새 EC2 인스턴스를 시작합니다. 애플리케이션 데이터를 포함하려면 Amazon
Elastic Block Store(Amazon EBS) 볼륨을 연결하세요. EC2 인스턴스에 기본 설정을 적용합니다.
D. Amazon Elastic Block Store(Amazon EBS) 볼륨이 지원하는 AMI를 사용하여 새 EC2 인스턴스를 시작합니다.
애플리케이션 데이터를 포함할 추가 EC2 인스턴스 스토어 볼륨을 연결합니다. EC2 인스턴스에 기본 설정을 적용합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 45 ===
문제: 한 회사는 Amazon Athena를 사용하여 CTAS(Create Table As Select)를 사용하여 추출, 변환 및 로드(ETL)
작업에 대한 SQL 쿼리를 실행합니다. 회사는 분석을 생성하기 위해 SQL 대신 Apache Spark를 사용해야 합니다. 회사가 Spark를
사용하여 Athena에 액세스할 수 있는 기능을 제공하는 솔루션은 무엇입니까?

답변 목록:
A. Athena 쿼리 설정
B. Athena 작업 그룹
C. Athena 데이터 소스
D. Athena 쿼리 편집기

정답: Suggested Answer:
B

==================================================

=== 문제 46 ===
문제: 회사는 데이터 레이크에 사용하는 Amazon S3 스토리지를 분할해야 합니다. 파티셔닝에서는
s3://bucket/prefix/year=2023/month=01/day=01 형식의 S3 객체 키 경로를 사용합니다. 데이터 엔지니어는
회사가 버킷에 새 파티션을 추가할 때 AWS Glue 데이터 카탈로그가 S3 스토리지와 동기화되는지 확인해야 합니다. 가장 짧은 대기 시간으로
이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 매일 아침 실행되도록 AWS Glue 크롤러를 예약합니다.
B. AWS Glue CreatePartition API를 매일 두 번 수동으로 실행합니다.
C. Amazon S3에 데이터를 쓰는 코드를 사용하여 Boto3 AWS Glue create_partition API 호출을 호출합니다.
D. AWS Glue 콘솔에서 MSCK REPAIR TABLE 명령을 실행합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 47 ===
문제: 미디어 회사는 SaaS(Software as a Service) 애플리케이션을 사용하여 타사 도구를 통해 데이터를 수집합니다. 회사는
Amazon S3 버킷에 데이터를 저장해야 합니다. 회사는 Amazon Redshift를 사용하여 데이터를 기반으로 분석을 수행할 것입니다.
최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 AWS 서비스 또는 기능은 무엇입니까?

답변 목록:
A. Apache Kafka용 Amazon 관리형 스트리밍(Amazon MSK)
B. 아마존 앱플로우
C. AWS Glue 데이터 카탈로그
D. 아마존 키네시스

정답: Suggested Answer:
B

==================================================

=== 문제 48 ===
문제: 데이터 엔지니어는 Amazon Athena를 사용하여 Amazon S3에 있는 판매 데이터를 분석하고 있습니다. 데이터 엔지니어는
sales_data라는 테이블에서 여러 제품에 대한 2023년 판매량을 검색하는 쿼리를 작성합니다. 그러나 쿼리는 sales_data 테이블에
있는 모든 제품에 대한 결과를 반환하지 않습니다. 문제를 해결하려면 데이터 엔지니어가 쿼리 문제를 해결해야 합니다. 데이터 엔지니어의 원래
쿼리는 다음과 같습니다. SELECT product_name, sum(sales_amount) FROM sales_data - WHERE 연도
= 2023 - GROUP BY product_name - 데이터 엔지니어는 이러한 요구 사항을 충족하기 위해 Athena 쿼리를 어떻게
수정해야 합니까?

답변 목록:
A. 집계를 위해 sum(sales_amount)를 count(*)로 바꿉니다.
B. WHERE 연도 = 2023을 WHERE 추출(판매_데이터에서 연도) = 2023으로 변경합니다.
C. GROUP BY 절 뒤에 HAVING sum(sales_amount) > 0을 추가합니다.
D. GROUP BY 절을 제거하세요.

정답: Suggested Answer:
B

==================================================

=== 문제 49 ===
문제: 데이터 엔지니어는 Amazon S3 버킷에 있는 Apache Parquet 형식의 객체에서 데이터를 읽는 일회성 작업을 수행합니다. 데이터
엔지니어는 데이터의 한 열만 쿼리하면 됩니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. S3 버킷의 데이터를 Pandas 데이터 프레임으로 로드하도록 AWS Lambda 함수를 구성합니다. 데이터프레임에 SQL SELECT
문을 작성하여 필요한 열을 쿼리합니다.
B. S3 Select를 사용하여 SQL SELECT 문을 작성하여 S3 객체에서 필요한 열을 검색합니다.
C. S3 객체를 사용하고 필요한 열을 쿼리하도록 AWS Glue DataBrew 프로젝트를 준비합니다.
D. S3 객체에서 AWS Glue 크롤러를 실행합니다. Amazon Athena에서 SQL SELECT 문을 사용하여 필요한 열을 쿼리합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 50 ===
문제: 한 회사는 데이터 웨어하우스로 Amazon Redshift를 사용합니다. 회사는 Amazon Redshift 구체화된 뷰에 대한 새로 고침
일정을 자동화해야 합니다. 최소한의 노력으로 이 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. Apache Airflow를 사용하여 구체화된 뷰를 새로 고칩니다.
B. Amazon Redshift 내에서 AWS Lambda 사용자 정의 함수(UDF)를 사용하여 구체화된 보기를 새로 고칩니다.
C. Amazon Redshift의 쿼리 편집기 v2를 사용하여 구체화된 보기를 새로 고칩니다.
D. AWS Glue 워크플로를 사용하여 구체화된 보기를 새로 고칩니다.

정답: Suggested Answer:
C

==================================================

=== 문제 51 ===
문제: 데이터 엔지니어는 하나의 AWS Lambda 함수와 하나의 AWS Glue 작업으로 구성된 데이터 파이프라인을 조정해야 합니다. 솔루션은 AWS
서비스와 통합되어야 합니다. 최소한의 관리 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 상태 시스템이 포함된 AWS Step Functions 워크플로를 사용합니다. Lambda 함수를 실행한 다음 AWS Glue 작업을
실행하도록 상태 시스템을 구성합니다.
B. Amazon EC2 인스턴스에 배포된 Apache Airflow 워크플로를 사용합니다. 첫 번째 작업이 Lambda 함수를 호출하고 두
번째 작업이 AWS Glue 작업을 호출하는 방향성 비순환 그래프(DAG)를 정의합니다.
C. AWS Glue 워크플로를 사용하여 Lambda 함수를 실행한 다음 AWS Glue 작업을 실행합니다.
D. Amazon Elastic Kubernetes Service(Amazon EKS)에 배포된 Apache Airflow 워크플로를
사용합니다. 첫 번째 작업이 Lambda 함수를 호출하고 두 번째 작업이 AWS Glue 작업을 호출하는 방향성 비순환 그래프(DAG)를
정의합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 52 ===
문제: 회사는 AWS 클라우드에서 실행되는 데이터 소스에 대한 데이터 카탈로그 및 메타데이터 관리를 설정해야 합니다. 회사는 데이터 카탈로그를 사용하여
데이터 저장소 집합에 있는 모든 개체의 메타데이터를 유지 관리합니다. 데이터 저장소에는 Amazon RDS 및 Amazon Redshift와
같은 구조화된 소스가 포함됩니다. 데이터 저장소에는 Amazon S3에 저장되는 JSON 파일 및 .xml 파일과 같은 반구조화된 소스도
포함됩니다. 회사에는 정기적으로 데이터 카탈로그를 업데이트하는 솔루션이 필요합니다. 솔루션은 소스 메타데이터에 대한 변경 사항도 감지해야
합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Aurora를 데이터 카탈로그로 사용합니다. 데이터 카탈로그에 연결할 AWS Lambda 함수를 생성합니다. 여러 소스에서
메타데이터 정보를 수집하고 Aurora 데이터 카탈로그를 업데이트하도록 Lambda 함수를 구성합니다. 주기적으로 실행되도록 Lambda 함수를
예약합니다.
B. AWS Glue 데이터 카탈로그를 중앙 메타데이터 저장소로 사용합니다. AWS Glue 크롤러를 사용하여 여러 데이터 스토어에 연결하고
메타데이터 변경 사항으로 데이터 카탈로그를 업데이트합니다. 메타데이터 카탈로그를 업데이트하기 위해 주기적으로 실행되도록 크롤러를 예약합니다.
C. Amazon DynamoDB를 데이터 카탈로그로 사용합니다. 데이터 카탈로그에 연결할 AWS Lambda 함수를 생성합니다. 여러 소스에서
메타데이터 정보를 수집하고 DynamoDB 데이터 카탈로그를 업데이트하도록 Lambda 함수를 구성합니다. 주기적으로 실행되도록 Lambda
함수를 예약합니다.
D. AWS Glue 데이터 카탈로그를 중앙 메타데이터 저장소로 사용합니다. Amazon RDS 및 Amazon Redshift 소스에 대한
스키마를 추출하고 데이터 카탈로그를 구축합니다. Amazon S3에 있는 데이터에 대해 AWS Glue 크롤러를 사용하여 스키마를 추론하고
데이터 카탈로그를 자동으로 업데이트합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 53 ===
문제: 회사는 프로비저닝된 용량 모드에서 작동하는 Amazon DynamoDB 테이블에 애플리케이션의 데이터를 저장합니다. 애플리케이션의 워크로드에는
정기적으로 예측 가능한 처리량 로드가 있습니다. 매주 월요일 이른 아침에는 활동이 즉시 증가합니다. 주말에는 애플리케이션 사용량이 매우
적습니다. 회사는 사용량이 가장 많은 시간에도 애플리케이션이 일관되게 작동하는지 확인해야 합니다. 가장 비용 효율적인 방식으로 이러한 요구
사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 프로비저닝된 용량을 현재 피크 로드 시간 동안 존재하는 최대 용량으로 늘립니다.
B. 테이블을 두 개의 테이블로 나눕니다. 원본 테이블 프로비저닝 용량의 절반으로 각 테이블을 프로비저닝합니다. 쿼리를 두 테이블에 균등하게
분산시킵니다.
C. AWS Application Auto Scaling을 사용하여 피크 사용 시간에 맞춰 더 높은 프로비저닝 용량을 예약합니다. 사용량이 적은
시간에는 용량을 낮추도록 예약하세요.
D. 용량 모드를 프로비저닝에서 주문형으로 변경합니다. 테이블의 로드에 따라 확장 및 축소되도록 테이블을 구성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 54 ===
문제: 한 회사가 온프레미스 Apache Hadoop 클러스터를 Amazon EMR로 마이그레이션할 계획입니다. 또한 회사는 데이터 카탈로그를 영구
스토리지 솔루션으로 마이그레이션해야 합니다. 회사는 현재 Hadoop 클러스터의 온프레미스 Apache Hive 메타스토어에 데이터 카탈로그를
저장하고 있습니다. 회사에서는 데이터 카탈로그를 마이그레이션하기 위해 서버리스 솔루션이 필요합니다. 이러한 요구 사항을 가장 비용 효율적으로
충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Database Migration Service(AWS DMS)를 사용하여 Hive 메타스토어를 Amazon S3로
마이그레이션합니다. Amazon S3를 스캔하여 데이터 카탈로그를 생성하도록 AWS Glue 데이터 카탈로그를 구성합니다.
B. Amazon EMR에서 Hive 메타스토어를 구성합니다. 기존 온프레미스 Hive 메타스토어를 Amazon EMR로 마이그레이션합니다.
AWS Glue 데이터 카탈로그를 사용하여 회사의 데이터 카탈로그를 외부 데이터 카탈로그로 저장합니다.
C. Amazon EMR에서 외부 Hive 메타스토어를 구성합니다. 기존 온프레미스 Hive 메타스토어를 Amazon EMR로
마이그레이션합니다. Amazon Aurora MySQL을 사용하여 회사의 데이터 카탈로그를 저장하십시오.
D. Amazon EMR에서 새로운 Hive 메타스토어를 구성합니다. 기존 온프레미스 Hive 메타스토어를 Amazon EMR로
마이그레이션합니다. 새 메타스토어를 회사의 데이터 카탈로그로 사용합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 55 ===
문제: 회사는 Amazon Redshift 프로비저닝된 클러스터를 데이터베이스로 사용합니다. Redshift 클러스터에는 5개의 예약된
ra3.4xlarge 노드가 있으며 키 배포를 사용합니다. 데이터 엔지니어는 노드 중 하나의 CPU 로드가 90%를 초과하는 경우가 많다는
사실을 발견했습니다. 노드에서 실행되는 SQL 쿼리는 대기열에 추가됩니다. 다른 4개 노드의 CPU 로드는 일반적으로 일일 작업 중 15%
미만입니다. 데이터 엔지니어는 현재 컴퓨팅 노드 수를 유지하려고 합니다. 또한 데이터 엔지니어는 5개의 컴퓨팅 노드 전체에 걸쳐 로드 균형을
더욱 균등하게 조정하려고 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. SQL SELECT 문의 WHERE 절에서 가장 자주 사용되는 데이터 열이 되도록 정렬 키를 변경합니다.
B. 분산 키를 가장 큰 차원이 있는 테이블 열로 변경합니다.
C. 예약 노드를 ra3.4xlarge에서 ra3.16xlarge로 업그레이드합니다.
D. SQL SELECT 문의 WHERE 절에서 가장 자주 사용되는 데이터 열이 되도록 기본 키를 변경합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 56 ===
문제: 보안 회사는 JSON 형식의 IoT 데이터를 Amazon S3 버킷에 저장합니다. 회사가 IoT 장치를 업그레이드하면 데이터 구조가 변경될 수
있습니다. 회사는 IoT 데이터가 포함된 데이터 카탈로그를 생성하려고 합니다. 회사의 분석 부서는 데이터 카탈로그를 사용하여 데이터를
색인화합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue 데이터 카탈로그를 생성합니다. AWS Glue 스키마 레지스트리를 구성합니다. 분석 부서가 Amazon Redshift
Serverless에 사용할 데이터 수집을 조정하기 위해 새로운 AWS Glue 워크로드를 생성합니다.
B. Amazon Redshift 프로비저닝된 클러스터를 생성합니다. 분석 부서가 Amazon S3에 있는 데이터를 탐색할 수 있도록
Amazon Redshift Spectrum 데이터베이스를 생성합니다. Amazon Redshift에 데이터를 로드하는 Redshift 저장
프로시저를 생성합니다.
C. Amazon Athena 작업 그룹을 생성합니다. Athena를 통해 Apache Spark를 사용하여 Amazon S3에 있는 데이터를
탐색합니다. Athena 작업 그룹 스키마와 테이블을 분석 부서에 제공합니다.
D. AWS Glue 데이터 카탈로그를 생성합니다. AWS Glue 스키마 레지스트리를 구성합니다. Amazon Redshift Data
API를 사용하여 AWS Lambda 사용자 정의 함수(UDF)를 생성합니다. 분석 부서가 Amazon Redshift Serverless에
사용할 데이터 수집을 조율하기 위해 AWS Step Functions 작업을 생성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 57 ===
문제: 회사는 Amazon S3 버킷에 거래 세부 정보를 저장합니다. 회사는 S3 버킷에 대한 모든 쓰기를 동일한 AWS 리전에 있는 다른 S3 버킷에
기록하려고 합니다. 최소한의 운영 노력으로 이 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. AWS Lambda 함수를 호출하도록 트랜잭션 S3 버킷의 모든 활동에 대한 S3 이벤트 알림 규칙을 구성합니다. Amazon
Kinesis Data Firehose에 이벤트를 쓰도록 Lambda 함수를 프로그래밍합니다. 로그 S3 버킷에 이벤트를 쓰도록 Kinesis
Data Firehose를 구성합니다.
B. AWS CloudTraiL에서 관리 이벤트 추적을 생성합니다. 트랜잭션 S3 버킷에서 데이터를 수신하도록 추적을 구성합니다. 빈 접두사 및
쓰기 전용 이벤트를 지정합니다. 로그 S3 버킷을 대상 버킷으로 지정합니다.
C. AWS Lambda 함수를 호출하도록 트랜잭션 S3 버킷의 모든 활동에 대한 S3 이벤트 알림 규칙을 구성합니다. 이벤트를 로그 S3
버킷에 기록하도록 Lambda 함수를 프로그래밍합니다.
D. AWS CloudTraiL에서 데이터 이벤트 추적을 생성합니다. 트랜잭션 S3 버킷에서 데이터를 수신하도록 추적을 구성합니다. 빈 접두사
및 쓰기 전용 이벤트를 지정합니다. 로그 S3 버킷을 대상 버킷으로 지정합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 58 ===
문제: 데이터 엔지니어는 사용자가 Amazon EMR 및 Amazon Athena 쿼리를 통해 액세스하는 중앙 메타데이터 저장소를 유지 관리해야
합니다. 리포지토리는 많은 테이블의 스키마와 속성을 제공해야 합니다. 일부 메타데이터는 Apache Hive에 저장됩니다. 데이터 엔지니어는
Hive의 메타데이터를 중앙 메타데이터 저장소로 가져와야 합니다. 최소한의 개발 노력으로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon EMR 및 Apache Ranger를 사용합니다.
B. EMR 클러스터에서 Hive 메타스토어를 사용합니다.
C. AWS Glue 데이터 카탈로그를 사용하십시오.
D. MySQL DB 인스턴스용 Amazon RDS에서 메타스토어를 사용합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 59 ===
문제: 회사는 AWS에 데이터 레이크를 구축해야 합니다. 회사는 특정 팀에 행 수준 데이터 액세스와 열 수준 데이터 액세스를 제공해야 합니다. 팀은
Amazon EMR의 Amazon Athena, Amazon Redshift Spectrum 및 Apache Hive를 사용하여 데이터에
액세스합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 데이터 레이크 스토리지에는 Amazon S3를 사용하십시오. S3 액세스 정책을 사용하여 행과 열별로 데이터 액세스를 제한합니다.
Amazon S3를 통해 데이터 액세스를 제공합니다.
B. 데이터 레이크 스토리지에는 Amazon S3를 사용하십시오. Amazon EMR을 통해 Apache Ranger를 사용하여 행과 열별로
데이터 액세스를 제한합니다. Apache Pig를 사용하여 데이터 액세스를 제공합니다.
C. 데이터 레이크 스토리지에는 Amazon Redshift를 사용하십시오. Redshift 보안 정책을 사용하여 행과 열별로 데이터 액세스를
제한합니다. Apache Spark 및 Amazon Athena 통합 쿼리를 사용하여 데이터 액세스를 제공합니다.
D. 데이터 레이크 스토리지에는 Amazon S3를 사용하십시오. AWS Lake Formation을 사용하여 행과 열별로 데이터 액세스를
제한합니다. AWS Lake Formation을 통해 데이터 액세스를 제공합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 60 ===
문제: 한 항공사가 분석을 위해 비행 활동에 대한 지표를 수집하고 있습니다. 회사는 정시 출발을 늘리는 데 사용할 수 있는 통찰력을 분석이 어떻게
제공할 수 있는지 보여주기 위해 개념 증명(POC) 테스트를 수행하고 있습니다. POC 테스트에서는 .csv 형식의 지표가 포함된 Amazon
S3의 객체를 사용합니다. POC 테스트는 Amazon Athena를 사용하여 데이터를 쿼리합니다. 데이터는 S3 버킷에서 날짜별로 분할됩니다.
데이터 양이 증가함에 따라 회사는 쿼리 성능을 향상시키기 위해 스토리지 솔루션을 최적화하려고 합니다. 이러한 요구 사항을 충족하는 솔루션 조합은
무엇입니까? (2개를 선택하세요.)

답변 목록:
A. 파티션 전체에서 더 많은 처리량을 얻으려면 Amazon S3의 키 시작 부분에 무작위 문자열을 추가하세요.
B. Athena를 사용하여 데이터를 쿼리하는 동일한 계정에 있는 S3 버킷을 사용합니다.
C. 회사가 Athena 쿼리를 실행하는 동일한 AWS 리전에 있는 S3 버킷을 사용합니다.
D. 쿼리에 필요한 문서 키만 가져와 .csv 데이터를 JSON 형식으로 전처리합니다.
E. 조건자에 필요한 데이터 블록만 가져와서 .csv 데이터를 Apache Parquet 형식으로 전처리합니다.

정답: Suggested Answer:
CE

==================================================

=== 문제 61 ===
문제: 한 회사는 MySQL용 Amazon RDS를 중요한 애플리케이션의 데이터베이스로 사용합니다. 데이터베이스 워크로드는 대부분 쓰기이며 읽기 횟수는
적습니다. 데이터 엔지니어는 DB 인스턴스의 CPU 사용률이 매우 높다는 사실을 발견했습니다. CPU 사용률이 높으면 애플리케이션 속도가
느려집니다. 데이터 엔지니어는 DB 인스턴스의 CPU 사용률을 줄여야 합니다. 이 요구 사항을 충족하려면 데이터 엔지니어가 어떤 조치를 취해야
합니까? (2개를 선택하세요.)

답변 목록:
A. Amazon RDS의 성능 개선 도우미 기능을 사용하여 CPU 사용률이 높은 쿼리를 식별합니다. 문제가 있는 쿼리를 최적화합니다.
B. 추가 테이블과 인덱스를 포함하도록 데이터베이스 스키마를 수정합니다.
C. 매주 한 번씩 RDS DB 인스턴스를 재부팅합니다.
D. 더 큰 인스턴스 크기로 업그레이드하세요.
E. 데이터베이스 쿼리 부하를 줄이기 위해 캐싱을 구현합니다.

정답: Suggested Answer:
AD

==================================================

=== 문제 62 ===
문제: 한 회사에서 Orders라는 Amazon Redshift 테이블을 6개월 동안 사용했습니다. 회사는 테이블에 대해 매주 업데이트 및 삭제를
수행합니다. 테이블에는 AWS 리전이 포함된 열에 인터리브 정렬 키가 있습니다. 회사는 저장 공간이 부족해지지 않도록 디스크 공간을 회수하려고
합니다. 회사에서는 정렬 키 열도 분석하려고 합니다. 이러한 요구 사항을 충족하는 Amazon Redshift 명령은 무엇입니까?

답변 목록:
A. VACUUM FULL 주문
B. 진공 삭제만 주문
C. VACUUM REINDEX 주문
D. VACUUM SORT 전용 주문

정답: Suggested Answer:
C

==================================================

=== 문제 63 ===
문제: 한 제조 회사가 센서로부터 데이터를 수집하려고 합니다. 데이터 엔지니어는 거의 실시간으로 센서 데이터를 수집하는 솔루션을 구현해야 합니다.
솔루션은 데이터를 영구 데이터 저장소에 저장해야 합니다. 솔루션은 데이터를 중첩된 JSON 형식으로 저장해야 합니다. 회사는 10밀리초 미만의
대기 시간으로 데이터 저장소에서 쿼리할 수 있어야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 자체 호스팅 Apache Kafka 클러스터를 사용하여 센서 데이터를 캡처합니다. 쿼리를 위해 Amazon S3에 데이터를 저장합니다.
B. AWS Lambda를 사용하여 센서 데이터를 처리합니다. 쿼리를 위해 Amazon S3에 데이터를 저장합니다.
C. Amazon Kinesis Data Streams를 사용하여 센서 데이터를 캡처합니다. 쿼리를 위해 Amazon DynamoDB에 데이터를
저장합니다.
D. Amazon Simple Queue Service(Amazon SQS)를 사용하여 수신 센서 데이터를 버퍼링합니다. 쿼리를 위해 AWS
Glue를 사용하여 Amazon RDS에 데이터를 저장합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 64 ===
문제: 회사는 Amazon S3에 있는 데이터 레이크에 데이터를 저장합니다. 회사가 데이터 레이크에 저장하는 일부 데이터에는 개인 식별 정보(PII)가
포함되어 있습니다. 여러 사용자 그룹이 원시 데이터에 액세스해야 합니다. 회사는 사용자 그룹이 필요한 PII에만 액세스할 수 있도록 해야
합니다. 최소한의 노력으로 이러한 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Athena를 사용하여 데이터를 쿼리합니다. AWS Lake Formation을 설정하고 데이터 필터를 생성하여 회사의 IAM
역할에 대한 액세스 수준을 설정합니다. 사용자의 PII 액세스 요구 사항과 일치하는 IAM 역할에 각 사용자를 할당합니다.
B. Amazon QuickSight를 사용하여 데이터에 액세스합니다. QuickSight의 열 수준 보안 기능을 사용하면 사용자가 Amazon
Athena를 통해 Amazon S3에서 검색할 수 있는 PII를 제한할 수 있습니다. 사용자의 PII 액세스 요구 사항을 기반으로
QuickSight 액세스 수준을 정의합니다.
C. 데이터에 액세스하기 위해 백그라운드에서 Athena 쿼리를 실행할 사용자 지정 쿼리 빌더 UI를 구축합니다. Amazon Cognito에서
사용자 그룹을 생성합니다. 사용자의 PII 액세스 요구 사항에 따라 사용자 그룹에 액세스 수준을 할당합니다.
D. 다양한 수준의 세분화된 액세스 권한을 가진 IAM 역할을 생성합니다. IAM 사용자 그룹에 IAM 역할을 할당합니다. ID 기반 정책을
사용하여 열 수준에서 사용자 그룹에 액세스 수준을 할당합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 65 ===
문제: 데이터 엔지니어는 10개의 소스 시스템에서 Amazon Redshift 데이터베이스에 있는 10개의 테이블로 데이터를 처리하고 로드하기 위해
ETL(추출, 변환 및 로드) 파이프라인을 구축해야 합니다. 모든 소스 시스템은 15분마다 .csv, JSON 또는 Apache Parquet
파일을 생성합니다. 소스 시스템은 모두 파일을 하나의 Amazon S3 버킷으로 전달합니다. 파일 크기는 10MB에서 20GB까지입니다. ETL
파이프라인은 데이터 스키마 변경에도 불구하고 올바르게 작동해야 합니다. 이러한 요구 사항을 충족하는 데이터 파이프라인 솔루션은 무엇인가요?
(2개를 선택하세요.)

답변 목록:
A. Amazon EventBridge 규칙을 사용하여 15분마다 AWS Glue 작업을 실행합니다. 데이터를 처리하고 Amazon
Redshift 테이블에 로드하도록 AWS Glue 작업을 구성합니다.
B. Amazon EventBridge 규칙을 사용하여 15분마다 AWS Glue 워크플로 작업을 호출합니다. AWS Glue 크롤러를 실행한
다음 크롤러 실행이 성공적으로 완료되면 AWS Glue 작업을 실행하는 온디맨드 트리거를 갖도록 AWS Glue 워크플로를 구성합니다. 데이터를
처리하고 Amazon Redshift 테이블에 로드하도록 AWS Glue 작업을 구성합니다.
C. 파일이 S3 버킷에 로드될 때 AWS Glue 크롤러를 호출하도록 AWS Lambda 함수를 구성합니다. 데이터를 처리하고 Amazon
Redshift 테이블에 로드하도록 AWS Glue 작업을 구성합니다. AWS Glue 작업을 실행하기 위한 두 번째 Lambda 함수를
생성합니다. AWS Glue 크롤러 실행이 성공적으로 완료되면 두 번째 Lambda 함수를 호출하는 Amazon EventBridge 규칙을
생성합니다.
D. 파일이 S3 버킷에 로드될 때 AWS Glue 워크플로를 호출하도록 AWS Lambda 함수를 구성합니다. AWS Glue 크롤러를 실행한
다음 크롤러 실행이 성공적으로 완료되면 AWS Glue 작업을 실행하는 온디맨드 트리거를 갖도록 AWS Glue 워크플로를 구성합니다. 데이터를
처리하고 Amazon Redshift 테이블에 로드하도록 AWS Glue 작업을 구성합니다.
E. 파일이 S3 버킷에 로드될 때 AWS Glue 작업을 호출하도록 AWS Lambda 함수를 구성합니다. S3 버킷의 파일을 Apache
Spark DataFrame으로 읽도록 AWS Glue 작업을 구성합니다. DataFrame의 더 작은 파티션을 Amazon Kinesis
Data Firehose 전송 스트림에 배치하도록 AWS Glue 작업을 구성합니다. Amazon Redshift 테이블에 데이터를 로드하도록
전송 스트림을 구성합니다.

정답: Suggested Answer:
BD

==================================================

=== 문제 66 ===
문제: 한 금융 회사는 비즈니스 인텔리전스(BI) 애플리케이션을 지원하기 위해 Amazon Athena를 사용하여 페타바이트 규모의 데이터 세트에서
온디맨드 SQL 쿼리를 실행하려고 합니다. 업무 시간 외 시간에 실행되는 AWS Glue 작업은 매일 한 번씩 데이터 세트를 업데이트합니다.
BI 애플리케이션에는 회사 정책을 준수하기 위해 1시간의 표준 데이터 새로 고침 빈도가 있습니다. 데이터 엔지니어는 추가 인프라 비용을 추가하지
않고 회사의 Amazon Athena 사용 비용을 최적화하려고 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은
무엇입니까?

답변 목록:
A. 1일 후에 데이터를 S3 Glacier Deep Archive 스토리지 클래스로 이동하도록 Amazon S3 수명 주기 정책을 구성합니다.
B. SQL 쿼리에는 Amazon Athena의 쿼리 결과 재사용 기능을 사용하십시오.
C. BI 애플리케이션과 Athena 사이에 Amazon ElastiCache 클러스터를 추가합니다.
D. 데이터세트에 있는 파일 형식을 Apache Parquet로 변경합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 67 ===
문제: 회사의 데이터 엔지니어는 테이블 SQL 쿼리의 성능을 최적화해야 합니다. 회사는 Amazon Redshift 클러스터에 데이터를 저장합니다.
데이터 엔지니어는 예산 제약으로 인해 클러스터 크기를 늘릴 수 없습니다. 회사는 데이터를 여러 테이블에 저장하고 EVEN 배포 스타일을 사용하여
데이터를 로드합니다. 일부 테이블의 크기는 수백 기가바이트입니다. 다른 테이블의 크기는 10MB 미만입니다. 어떤 솔루션이 이러한 요구 사항을
충족합니까?

답변 목록:
A. 모든 테이블에 대해 EVEN 배포 스타일을 계속 사용하십시오. 모든 테이블에 기본 키와 외래 키를 지정합니다.
B. 큰 테이블에는 ALL 배포 스타일을 사용합니다. 모든 테이블에 기본 키와 외래 키를 지정합니다.
C. 거의 업데이트되지 않는 작은 테이블에는 ALL 배포 스타일을 사용합니다. 모든 테이블에 기본 키와 외래 키를 지정합니다.
D. 모든 테이블에 대한 배포, 정렬 및 파티션 키의 조합을 지정합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 68 ===
문제: 회사는 실제 주소 데이터가 포함된 .csv 파일을 받습니다. 데이터는 이름이 Door_No, Street_Name, City 및
Zip_Code인 열에 있습니다. 회사는 이러한 값을 다음 형식으로 저장하기 위해 단일 열을 생성하려고 합니다.

어떤 솔루션이 최소한의 코딩 노력으로 이 요구 사항을 충족합니까?

답변 목록:
A. AWS Glue DataBrew를 사용하여 파일을 읽습니다. NEST_TO_ARRAY 변환을 사용하여 새 열을 생성합니다.
B. AWS Glue DataBrew를 사용하여 파일을 읽습니다. NEST_TO_MAP 변환을 사용하여 새 열을 생성합니다.
C. AWS Glue DataBrew를 사용하여 파일을 읽습니다. PIVOT 변환을 사용하여 새 열을 만듭니다.
D. Python에서 Lambda 함수를 작성하여 파일을 읽습니다. Python 데이터 사전 유형을 사용하여 새 열을 만듭니다.

정답: Suggested Answer:
B

==================================================

=== 문제 69 ===
문제: 회사는 민감한 고객 정보가 포함된 Amazon S3 객체로 통화 로그를 수신합니다. 회사는 암호화를 사용하여 S3 객체를 보호해야 합니다. 또한
회사는 특정 직원만 접근할 수 있는 암호화 키를 사용해야 합니다. 최소한의 노력으로 이러한 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. AWS CloudHSM 클러스터를 사용하여 암호화 키를 저장합니다. 객체를 암호화하고 해독하기 위해 CloudHSM을 호출하도록
Amazon S3에 쓰는 프로세스를 구성합니다. CloudHSM 클러스터에 대한 액세스를 제한하는 IAM 정책을 배포합니다.
B. 고객 제공 키(SSE-C)를 사용한 서버 측 암호화를 사용하여 고객 정보가 포함된 객체를 암호화합니다. 객체를 암호화하는 키에 대한
액세스를 제한합니다.
C. AWS KMS 키(SSE-KMS)로 서버 측 암호화를 사용하여 고객 정보가 포함된 객체를 암호화합니다. 객체를 암호화하는 KMS 키에 대한
액세스를 제한하는 IAM 정책을 구성합니다.
D. Amazon S3 관리형 키(SSE-S3)와 함께 서버 측 암호화를 사용하여 고객 정보가 포함된 객체를 암호화합니다. 객체를 암호화하는
Amazon S3 관리형 키에 대한 액세스를 제한하는 IAM 정책을 구성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 70 ===
문제: 한 회사는 S3 Standard 스토리지 클래스의 수천 개의 Amazon S3 버킷에 페타바이트 규모의 데이터를 저장합니다. 데이터는 예측할 수
없고 가변적인 데이터 액세스 패턴을 갖는 분석 워크로드를 지원합니다. 회사는 몇 달 동안 일부 데이터에 액세스하지 않습니다. 그러나 회사는
밀리초 이내에 모든 데이터를 검색할 수 있어야 합니다. 회사는 S3 스토리지 비용을 최적화해야 합니다. 최소한의 운영 오버헤드로 이러한 요구
사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. S3 Storage Lens 표준 지표를 사용하여 객체를 보다 비용 최적화된 스토리지 클래스로 이동할 시기를 결정합니다. S3 버킷에 대한
S3 수명 주기 정책을 생성하여 객체를 비용 최적화된 스토리지 클래스로 이동합니다. 앞으로도 S3 수명 주기 정책을 계속해서 개선하여 스토리지
비용을 최적화하세요.
B. S3 Storage Lens 활동 지표를 사용하여 회사가 자주 액세스하지 않는 S3 버킷을 식별합니다. 데이터 기간에 따라 S3
Standard에서 S3 Standard-Infrequent Access(S3 Standard-IA) 및 S3 Glacier 스토리지 클래스로
객체를 이동하도록 S3 수명 주기 규칙을 구성합니다.
C. S3 지능형 계층화를 사용하십시오. Deep Archive Access 계층을 활성화합니다.
D. S3 지능형 계층화를 사용하십시오. 기본 액세스 계층을 사용합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 71 ===
문제: 보안 검토 중에 한 회사에서 AWS Glue 작업의 취약점을 식별했습니다. 회사는 Amazon Redshift 클러스터에 액세스하기 위한 자격
증명이 작업 스크립트에 하드 코딩되어 있음을 발견했습니다. 데이터 엔지니어는 AWS Glue 작업의 보안 취약성을 해결해야 합니다. 솔루션은
자격 증명을 안전하게 저장해야 합니다. 이러한 요구 사항을 충족하기 위해 데이터 엔지니어는 어떤 단계 조합을 수행해야 합니까? (2개를
선택하세요.)

답변 목록:
A. AWS Glue 작업 매개변수에 자격 증명을 저장합니다.
B. Amazon S3 버킷에 있는 구성 파일에 자격 증명을 저장합니다.
C. AWS Glue 작업을 사용하여 Amazon S3 버킷에 있는 구성 파일에서 자격 증명에 액세스합니다.
D. AWS Secrets Manager에 자격 증명을 저장합니다.
E. AWS Glue 작업 IAM 역할에 저장된 자격 증명에 대한 액세스 권한을 부여합니다.

정답: Suggested Answer:
DE

==================================================

=== 문제 72 ===
문제: 데이터 엔지니어는 Amazon Redshift를 사용하여 매달 한 번씩 리소스 집약적인 분석 프로세스를 실행합니다. 매달 데이터 엔지니어는
새로운 Redshift 프로비저닝 클러스터를 생성합니다. 데이터 엔지니어는 매달 분석 프로세스가 완료된 후 Redshift 프로비저닝된
클러스터를 삭제합니다. 데이터 엔지니어는 매달 클러스터를 삭제하기 전에 클러스터에서 Amazon S3 버킷으로 백업 데이터를 언로드합니다.
데이터 엔지니어는 데이터 엔지니어가 인프라를 수동으로 관리할 필요가 없는 월별 분석 프로세스를 실행하기 위한 솔루션이 필요합니다. 최소한의 운영
오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 분석 프로세스가 완료되면 Amazon Step Functions를 사용하여 Redshift 클러스터를 일시 중지하고 클러스터를 재개하여
매달 새 프로세스를 실행합니다.
B. Amazon Redshift Serverless를 사용하여 분석 워크로드를 자동으로 처리합니다.
C. AWS CLI를 사용하여 분석 워크로드를 자동으로 처리합니다.
D. AWS CloudFormation 템플릿을 사용하여 분석 워크로드를 자동으로 처리합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 73 ===
문제: 회사는 .xls 형식의 고객 데이터가 포함된 일일 파일을 받습니다. 회사는 파일을 Amazon S3에 저장합니다. 일일 파일 크기는 약
2GB입니다. 데이터 엔지니어는 고객 이름이 포함된 파일의 열과 고객 성이 포함된 열을 연결합니다. 데이터 엔지니어는 파일에서 개별 고객 수를
확인해야 합니다. 최소한의 운영 노력으로 이 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue 노트북에서 Apache Spark 작업을 생성하고 실행합니다. S3 파일을 읽고 개별 고객 수를 계산하도록 작업을
구성합니다.
B. AWS Glue 크롤러를 생성하여 S3 파일의 AWS Glue 데이터 카탈로그를 생성합니다. Amazon Athena에서 SQL 쿼리를
실행하여 개별 고객 수를 계산합니다.
C. Amazon EMR Serverless에서 Apache Spark 작업을 생성하고 실행하여 개별 고객 수를 계산합니다.
D. AWS Glue DataBrew를 사용하여 COUNT_DISTINCT 집계 함수를 사용하여 개별 고객 수를 계산하는 레시피를 생성합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 74 ===
문제: 한 의료 회사는 Amazon Kinesis Data Streams를 사용하여 웨어러블 디바이스, 병원 장비 및 환자 기록에서 실시간 건강
데이터를 스트리밍합니다. 데이터 엔지니어는 스트리밍 데이터를 처리하기 위한 솔루션을 찾아야 합니다. 데이터 엔지니어는 Amazon
Redshift Serverless Warehouse에 데이터를 저장해야 합니다. 솔루션은 스트리밍 데이터와 전날 데이터에 대한 거의 실시간
분석을 지원해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Kinesis Data Firehose에 데이터를 로드합니다. Amazon Redshift에 데이터를 로드합니다.
B. Amazon Redshift의 스트리밍 수집 기능을 사용하십시오.
C. Amazon S3에 데이터를 로드합니다. COPY 명령을 사용하여 Amazon Redshift에 데이터를 로드합니다.
D. Amazon Redshift와 Amazon Aurora zero-ETL 통합을 사용하십시오.

정답: Suggested Answer:
B

==================================================

=== 문제 75 ===
문제: 데이터 엔지니어는 Amazon S3 버킷에 저장된 데이터에 대한 Amazon Athena 쿼리를 기반으로 하는 Amazon QuickSight
대시보드를 사용해야 합니다. 데이터 엔지니어가 QuickSight 대시보드에 연결하면 데이터 엔지니어는 권한이 부족함을 나타내는 오류 메시지를
받습니다. 권한 관련 오류가 발생할 수 있는 요인은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. QuickSight와 Athena 사이에는 연결이 없습니다.
B. Athena 테이블은 카탈로그에 포함되어 있지 않습니다.
C. QuickSight는 S3 버킷에 액세스할 수 없습니다.
D. QuickSight는 S3 데이터를 해독할 수 있는 액세스 권한이 없습니다.
E. QuickSight에 할당된 IAM 역할이 없습니다.

정답: Suggested Answer:
CD

==================================================

=== 문제 76 ===
문제: A company stores datasets in JSON format and .csv format in an Amazon S3 bucket.
The company has Amazon RDS for Microsoft SQL Server databases, Amazon DynamoDB
tables that are in provisioned capacity mode, and an Amazon Redshift cluster. A
data engineering team must develop a solution that will give data scientists the
ability to query all data sources by using syntax similar to SQL. Which solution
will meet these requirements with the LEAST operational overhead?

답변 목록:
A. AWS Glue를 사용하여 데이터 소스를 크롤링합니다. AWS Glue 데이터 카탈로그에 메타데이터를 저장합니다. Amazon
Athena를 사용하여 데이터를 쿼리합니다. 구조화된 데이터 소스에는 SQL을 사용합니다. JSON 형식으로 저장된 데이터에는 PartiQL을
사용합니다.
B. AWS Glue를 사용하여 데이터 소스를 크롤링합니다. AWS Glue 데이터 카탈로그에 메타데이터를 저장합니다. Redshift
Spectrum을 사용하여 데이터를 쿼리합니다. 구조화된 데이터 소스에는 SQL을 사용합니다. JSON 형식으로 저장된 데이터에는
PartiQL을 사용합니다.
C. AWS Glue를 사용하여 데이터 소스를 크롤링합니다. AWS Glue 데이터 카탈로그에 메타데이터를 저장합니다. AWS Glue 작업을
사용하여 JSON 형식의 데이터를 Apache Parquet 또는 .csv 형식으로 변환합니다. 변환된 데이터를 S3 버킷에 저장합니다.
Amazon Athena를 사용하여 S3 버킷에서 원본 데이터와 변환된 데이터를 쿼리합니다.
D. AWS Lake Formation을 사용하여 데이터 레이크를 생성합니다. Lake Formation 작업을 사용하여 모든 데이터 소스의
데이터를 Apache Parquet 형식으로 변환합니다. 변환된 데이터를 S3 버킷에 저장합니다. Amazon Athena 또는 Redshift
Spectrum을 사용하여 데이터를 쿼리합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 77 ===
문제: 데이터 엔지니어는 AWS Glue 대화형 세션을 사용하여 기계 학습(ML) 모델용 데이터를 준비하도록 Amazon SageMaker
Studio를 구성하고 있습니다. 데이터 엔지니어가 SageMaker Studio를 사용하여 데이터를 준비하려고 하면 액세스 거부 오류가
발생합니다. SageMaker Studio에 액세스하려면 엔지니어가 어떤 변경을 해야 합니까?

답변 목록:
A. 데이터 엔지니어의 IAM 사용자에게 AWSGlueServiceRole 관리형 정책을 추가합니다.
B. 신뢰 정책의 AWS Glue 및 SageMaker 서비스 주체에 대한 sts:AssumeRole 작업을 포함하는 데이터 엔지니어의 IAM
사용자에게 정책을 추가합니다.
C. 데이터 엔지니어의 IAM 사용자에게 AmazonSageMakerFullAccess 관리형 정책을 추가합니다.
D. 신뢰 정책에서 AWS Glue 및 SageMaker 서비스 주체에 대한 sts:AddAssociation 작업을 허용하는 정책을 데이터
엔지니어의 IAM 사용자에게 추가합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 78 ===
문제: 한 회사는 SAP HANA, Microsoft SQL Server, MongoDB, Apache Kafka 및 Amazon DynamoDB와
같은 데이터 소스에서 매일 약 1TB의 데이터를 추출합니다. 일부 데이터 소스에는 정의되지 않은 데이터 스키마 또는 변경되는 데이터 스키마가
있습니다. 데이터 엔지니어는 이러한 데이터 소스에 대한 스키마를 감지할 수 있는 솔루션을 구현해야 합니다. 솔루션은 데이터를 추출, 변환하고
Amazon S3 버킷에 로드해야 합니다. 회사는 데이터 생성 후 15분 이내에 S3 버킷에 데이터를 로드하는 서비스 수준 계약(SLA)을
보유하고 있습니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon EMR을 사용하여 스키마를 감지하고 데이터를 추출, 변환하고 S3 버킷에 로드합니다. Apache Spark에서 파이프라인을
생성합니다.
B. AWS Glue를 사용하여 스키마를 감지하고 데이터를 추출, 변환하고 S3 버킷에 로드합니다. Apache Spark에서 파이프라인을
생성합니다.
C. AWS Lambda에서 PySpark 프로그램을 생성하여 데이터를 추출, 변환하고 S3 버킷에 로드합니다.
D. Amazon Redshift에서 저장 프로시저를 생성하여 스키마를 감지하고 데이터를 추출, 변환하고 Redshift Spectrum
테이블에 로드합니다. Amazon S3에서 테이블에 액세스합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 79 ===
문제: 회사에는 Amazon S3 버킷에 저장된 데이터 세트를 사용하는 여러 애플리케이션이 있습니다. 회사에는 개인 식별 정보(PII)가 포함된 데이터
세트를 생성하는 전자 상거래 애플리케이션이 있습니다. 회사에는 PII에 액세스할 필요가 없는 내부 분석 애플리케이션이 있습니다. 규정을 준수하기
위해 회사는 PII를 불필요하게 공유해서는 안 됩니다. 데이터 엔지니어는 데이터 세트에 액세스하는 각 애플리케이션의 요구 사항에 따라 PII를
동적으로 수정하는 솔루션을 구현해야 합니다. 최소한의 운영 오버헤드로 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 각 애플리케이션의 액세스를 제한하는 S3 버킷 정책을 생성합니다. 데이터세트의 복사본을 여러 개 만듭니다. 각 데이터 세트 복사본에
복사본에 액세스하는 애플리케이션의 요구 사항에 맞는 적절한 수준의 수정을 제공합니다.
B. S3 객체 Lambda 엔드포인트를 생성합니다. S3 객체 Lambda 엔드포인트를 사용하여 S3 버킷에서 데이터를 읽습니다. S3 객체
Lambda 함수 내에서 수정 논리를 구현하여 데이터에 액세스하는 각 애플리케이션의 요구 사항에 따라 PII를 동적으로 수정합니다.
C. AWS Glue를 사용하여 각 애플리케이션의 데이터를 변환합니다. 데이터세트의 복사본을 여러 개 만듭니다. 각 데이터 세트 복사본에
복사본에 액세스하는 애플리케이션의 요구 사항에 맞는 적절한 수준의 수정을 제공합니다.
D. 사용자 지정 권한 부여자가 있는 API 게이트웨이 엔드포인트를 생성합니다. API 게이트웨이 엔드포인트를 사용하여 S3 버킷에서 데이터를
읽습니다. 데이터에 액세스하는 각 애플리케이션의 요구 사항에 따라 PII를 동적으로 수정하는 REST API 호출을 시작합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 80 ===
문제: 데이터 엔지니어는 ETL(추출, 변환 및 로드) 작업을 구축해야 합니다. ETL 작업은 사용자가 Amazon S3 버킷에 업로드하는 매일
수신되는 .csv 파일을 처리합니다. 각 S3 객체의 크기는 100MB 미만입니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은
무엇입니까?

답변 목록:
A. 사용자 정의 Python 애플리케이션을 작성합니다. Amazon Elastic Kubernetes Service(Amazon EKS)
클러스터에서 애플리케이션을 호스팅합니다.
B. PySpark ETL 스크립트를 작성합니다. Amazon EMR 클러스터에서 스크립트를 호스팅합니다.
C. AWS Glue PySpark 작업을 작성합니다. Apache Spark를 사용하여 데이터를 변환합니다.
D. AWS Glue Python 셸 작업을 작성합니다. 팬더를 사용하여 데이터를 변환합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 81 ===
문제: 데이터 엔지니어는 Orders라는 AWS Glue 크롤러를 사용하여 AWS Glue 데이터 카탈로그 테이블을 생성합니다. 데이터 엔지니어는
다음과 같은 새 파티션을 추가하려고 합니다. s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02 데이터 엔지니어는 테이블 위치에 있는 모든 폴더와 파일을
검색하지 않고 테이블에 새 파티션을 포함하도록 메타데이터를 편집해야 합니다. 데이터 엔지니어는 Amazon Athena에서 어떤 데이터 정의
언어(DDL) 문을 사용해야 합니까?

답변 목록:
A. ALTER TABLE 주문 ADD PARTITION(order_date='2023-01-01') LOCATION
's3://transactions/orders/order_date=2023-01-01'; ALTER TABLE 주문 ADD
PARTITION(order_date='2023-01-02') LOCATION
's3://transactions/orders/order_date=2023-01-02';
B. MSCK 수리 테이블 주문;
C. 수리 테이블 주문;
D. ALTER TABLE 주문 MODIFY PARTITION(order_date='2023-01-01') LOCATION
's3://transactions/orders/2023-01-01'; ALTER TABLE 주문 MODIFY
PARTITION(order_date='2023-01-02') LOCATION
's3://transactions/orders/2023-01-02';

정답: Suggested Answer:
A

==================================================

=== 문제 82 ===
문제: 한 회사는 Amazon S3에 10~15TB의 압축되지 않은 .csv 파일을 저장합니다. 회사는 Amazon Athena를 일회성 쿼리 엔진으로
평가하고 있습니다. 회사는 쿼리 런타임 및 스토리지 비용을 최적화하기 위해 데이터를 변환하려고 합니다. Athena 쿼리에 대한 이러한 요구
사항을 충족하는 파일 형식 및 압축 솔루션은 무엇입니까?

답변 목록:
A. zip으로 압축된 .csv 형식
B. bzip2로 압축된 JSON 형식
C. Snappy로 압축된 Apache Parquet 형식
D. LZO로 압축된 Apache Avro 형식

정답: Suggested Answer:
C

==================================================

=== 문제 83 ===
문제: 회사는 Apache Airflow를 사용하여 회사의 현재 온프레미스 데이터 파이프라인을 조정합니다. 회사는 파이프라인의 일부로 SQL 데이터
품질 검사 작업을 실행합니다. 회사는 파이프라인을 AWS로 마이그레이션하고 AWS 관리형 서비스를 사용하려고 합니다. 최소한의 리팩토링으로
이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 회사에서 Airflow를 사용하는 위치와 가장 가까운 AWS 리전에 AWS Outpost를 설정합니다. 서버를 Outposts 호스팅
Amazon EC2 인스턴스로 마이그레이션합니다. 온프레미스 파이프라인 대신 Outposts 호스팅 EC2 인스턴스와 상호 작용하도록
파이프라인을 업데이트합니다.
B. Airflow 애플리케이션과 회사가 마이그레이션해야 하는 코드가 포함된 사용자 지정 Amazon 머신 이미지(AMI)를 생성합니다. 사용자
지정 AMI를 사용하여 Amazon EC2 인스턴스를 배포합니다. 새로 배포된 EC2 인스턴스와 상호 작용하도록 네트워크 연결을 업데이트합니다.
C. 기존 Airflow 오케스트레이션 구성을 Amazon Managed Workflows for Apache Airflow(Amazon
MWAA)로 마이그레이션합니다. Airflow에서 SQL 작업을 사용하여 데이터 품질을 검증하기 위해 수집 중에 데이터 품질 검사를 만듭니다.
D. 파이프라인을 AWS Step Functions 워크플로로 변환합니다. SQL의 데이터 품질 검사를 Python 기반 AWS Lambda
함수로 다시 생성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 84 ===
문제: 한 회사는 Amazon EMR을 ETL(추출, 변환 및 로드) 파이프라인으로 사용하여 여러 소스에서 오는 데이터를 변환합니다. 데이터 엔지니어는
성능을 극대화하기 위해 파이프라인을 조정해야 합니다. 이 요구 사항을 가장 비용 효율적으로 충족하는 AWS 서비스는 무엇입니까?

답변 목록:
A. 아마존 이벤트브리지
B. Apache Airflow용 Amazon 관리형 워크플로(Amazon MWAA)
C. AWS 단계 함수
D. AWS Glue 워크플로

정답: Suggested Answer:
C

==================================================

=== 문제 85 ===
문제: 온라인 소매 회사는 ALB(Application Load Balancer) 액세스 로그를 Amazon S3 버킷에 저장합니다. 회사는
Amazon Athena를 사용하여 로그를 쿼리하여 트래픽 패턴을 분석하려고 합니다. 데이터 엔지니어가 Athena에서 분할되지 않은 테이블을
생성합니다. 데이터의 양이 점차 증가함에 따라 쿼리에 대한 응답 시간도 늘어납니다. 데이터 엔지니어는 Athena의 쿼리 성능을 개선하려고
합니다. 최소한의 운영 노력으로 이러한 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. 모든 ALB 액세스 로그의 스키마를 결정하고 AWS Glue 데이터 카탈로그에 파티션 메타데이터를 쓰는 AWS Glue 작업을 생성합니다.
B. 모든 ALB 액세스 로그의 스키마를 결정하고 AWS Glue 데이터 카탈로그에 파티션 메타데이터를 쓰는 분류자를 포함하는 AWS Glue
크롤러를 생성합니다.
C. 모든 ALB 액세스 로그를 변환하는 AWS Lambda 함수를 생성합니다. 결과를 Apache Parquet 형식으로 Amazon S3에
저장합니다. 메타데이터를 분할합니다. Athena를 사용하여 변환된 데이터를 쿼리합니다.
D. Apache Hive를 사용하여 버킷 테이블을 생성합니다. AWS Lambda 함수를 사용하여 모든 ALB 액세스 로그를 변환합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 86 ===
문제: 한 회사가 AWS에 비즈니스 인텔리전스 플랫폼을 보유하고 있습니다. 회사는 AWS Storage Gateway Amazon S3 파일
게이트웨이를 사용하여 회사 온프레미스 환경에서 Amazon S3 버킷으로 파일을 전송합니다. 데이터 엔지니어는 각 파일 전송이 성공적으로
완료되면 일련의 AWS Glue 작업을 실행하기 위해 AWS Glue 워크플로를 자동으로 시작하는 프로세스를 설정해야 합니다. 최소한의 운영
오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 이전에 성공한 파일 전송을 기반으로 파일 전송이 일반적으로 완료되는 시기를 결정합니다. 해당 시간에 AWS Glue 작업을 시작하도록
Amazon EventBridge 예약 이벤트를 설정합니다.
B. S3 파일 게이트웨이 파일 전송 이벤트가 성공할 때마다 AWS Glue 워크플로를 시작하는 Amazon EventBridge 이벤트를
설정합니다.
C. 각 파일 전송이 완료되면 데이터 엔지니어가 AWS Glue 워크플로를 시작할 수 있도록 온디맨드 AWS Glue 워크플로를 설정합니다.
D. AWS Glue 워크플로를 호출하는 AWS Lambda 함수를 설정합니다. S3 객체 생성을 위한 이벤트를 Lambda 함수의 트리거로
설정합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 87 ===
문제: 한 소매 회사는 Amazon Aurora PostgreSQL을 사용하여 실시간 트랜잭션 데이터를 처리하고 저장합니다. 이 회사는 데이터
웨어하우스로 Amazon Redshift 클러스터를 사용합니다. ETL(추출, 변환 및 로드) 작업은 매일 아침 실행되어 PostgreSQL
데이터베이스의 새 데이터로 Redshift 클러스터를 업데이트합니다. 회사는 빠르게 성장했으며 Redshift 클러스터의 비용을 최적화해야
합니다. 데이터 엔지니어는 기록 데이터를 보관하기 위한 솔루션을 만들어야 합니다. 데이터 엔지니어는 PostgreSQL의 실시간 트랜잭션
데이터, Redshift의 현재 데이터 및 보관된 기록 데이터의 데이터를 효과적으로 결합하는 분석 쿼리를 실행할 수 있어야 합니다. 솔루션은
비용 절감을 위해 Amazon Redshift에 가장 최근 15개월의 데이터만 보관해야 합니다. 이러한 요구 사항을 충족하는 단계 조합은
무엇입니까? (2개를 선택하세요.)

답변 목록:
A. PostgreSQL 데이터베이스에 있는 실시간 트랜잭션 데이터를 쿼리하도록 Amazon Redshift Federated Query 기능을
구성합니다.
B. PostgreSQL 데이터베이스에 있는 실시간 트랜잭션 데이터를 쿼리하도록 Amazon Redshift Spectrum을 구성합니다.
C. UNLOAD 명령을 사용하여 15개월이 지난 데이터를 Amazon S3에 복사하도록 월간 작업을 예약합니다. Redshift 클러스터에서
이전 데이터를 삭제합니다. Amazon S3의 기록 데이터에 액세스하도록 Amazon Redshift Spectrum을 구성합니다.
D. UNLOAD 명령을 사용하여 15개월이 지난 데이터를 Amazon S3 Glacier 유연한 검색으로 복사하도록 월간 작업을 예약합니다.
Redshift 클러스터에서 이전 데이터를 삭제합니다. S3 Glacier 유연한 검색의 기록 데이터에 액세스하도록 Redshift
Spectrum을 구성합니다.
E. Amazon Redshift에서 다양한 소스의 실시간, 현재 및 기록 데이터를 결합하는 구체화된 보기를 생성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 88 ===
문제: 한 제조 회사는 전 세계 시설에 많은 IoT 장치를 보유하고 있습니다. 회사는 Amazon Kinesis Data Streams를 사용하여
디바이스에서 데이터를 수집합니다. 데이터에는 장치 ID, 캡처 날짜, 측정 유형, 측정 값 및 시설 ID가 포함됩니다. 회사에서는 시설 ID를
파티션 키로 사용합니다. 회사의 운영 팀은 최근 많은 WriteThroughputExceeded 예외를 관찰했습니다. 운영팀은 일부 샤드가 많이
사용되었지만 다른 샤드가 일반적으로 유휴 상태임을 확인했습니다. 운영팀에서 관찰한 문제를 회사는 어떻게 해결해야 할까요?

답변 목록:
A. 파티션 키를 시설 ID에서 무작위로 생성된 키로 변경합니다.
B. 샤드 수를 늘립니다.
C. 생산자 측에서 데이터를 보관합니다.
D. 파티션 키를 시설 ID에서 캡처 날짜로 변경합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 89 ===
문제: 데이터 엔지니어는 판매 데이터 테이블에 대해 실행되는 Amazon Athena의 SQL 쿼리 성능을 개선하려고 합니다. 데이터 엔지니어는 특정
SQL 문의 실행 계획을 이해하려고 합니다. 데이터 엔지니어는 SQL 쿼리에서 각 작업의 계산 비용도 확인하려고 합니다. 이러한 요구 사항을
충족하려면 데이터 엔지니어가 실행해야 하는 문은 무엇인가요?

답변 목록:
A. EXPLAIN SELECT * FROM 판매;
B. 판매 분석을 설명하세요.
C. 설명 분석 선택 * 판매에서;
D. 판매에서 설명하십시오;

정답: Suggested Answer:
C

==================================================

=== 문제 90 ===
문제: 회사는 VPC 내에서 로그 전송 스트림을 프로비저닝할 계획입니다. 회사는 Amazon CloudWatch Logs에 게시하도록 VPC 흐름
로그를 구성했습니다. 회사는 추가 분석을 위해 거의 실시간으로 흐름 로그를 Splunk에 보내야 합니다. 최소한의 운영 오버헤드로 이러한 요구
사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Splunk를 대상으로 사용하도록 Amazon Kinesis Data Streams 데이터 스트림을 구성합니다. CloudWatch
Logs 구독 필터를 생성하여 로그 이벤트를 데이터 스트림으로 보냅니다.
B. Splunk를 대상으로 사용하려면 Amazon Kinesis Data Firehose 전송 스트림을 생성하세요. CloudWatch
Logs 구독 필터를 생성하여 로그 이벤트를 전송 스트림으로 보냅니다.
C. Splunk를 대상으로 사용하려면 Amazon Kinesis Data Firehose 전송 스트림을 생성하세요. CloudWatch
Logs의 흐름 로그를 전송 스트림으로 보내는 AWS Lambda 함수를 생성합니다.
D. Splunk를 대상으로 사용하도록 Amazon Kinesis Data Streams 데이터 스트림을 구성합니다. CloudWatch
Logs의 흐름 로그를 데이터 스트림으로 보내는 AWS Lambda 함수를 생성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 91 ===
문제: 한 회사가 AWS에 데이터 레이크를 보유하고 있습니다. 데이터 레이크는 사업부로부터 데이터 소스를 수집합니다. 이 회사는 쿼리에 Amazon
Athena를 사용합니다. 스토리지 계층은 AWS Glue 데이터 카탈로그를 메타데이터 리포지토리로 사용하는 Amazon S3입니다. 회사는
데이터 과학자와 비즈니스 분석가가 데이터를 사용할 수 있도록 하려고 합니다. 그러나 회사는 먼저 사용자 역할과 책임에 따라 Athena에 대한
세분화된 열 수준 데이터 액세스를 관리해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. AWS Lake Formation을 설정합니다. Lake Formation에서 IAM 역할별로 사용자 및 애플리케이션에 대한 보안 정책
기반 규칙을 정의합니다.
B. AWS Glue 테이블에 대한 IAM 리소스 기반 정책을 정의합니다. IAM 사용자 그룹에 동일한 정책을 연결합니다.
C. AWS Glue 테이블에 대한 IAM 자격 증명 기반 정책을 정의합니다. IAM 역할에 동일한 정책을 연결합니다. IAM 역할을 사용자가
포함된 IAM 그룹과 연결합니다.
D. AWS Resource Access Manager(AWS RAM)에서 리소스 공유를 생성하여 IAM 사용자에게 액세스 권한을 부여합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 92 ===
문제: 한 회사는 Amazon S3의 데이터를 검증하고 변환하기 위해 여러 AWS Glue ETL(추출, 변환 및 로드) 작업을 개발했습니다. ETL
작업은 매일 한 번씩 Amazon RDS for MySQL에 데이터를 일괄 로드합니다. ETL 작업은 DynamicFrame을 사용하여 S3
데이터를 읽습니다. ETL 작업은 현재 S3 버킷에 있는 모든 데이터를 처리합니다. 그러나 회사에서는 작업이 일일 증분 데이터만 처리하기를
원합니다. 최소한의 코딩 노력으로 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. S3 파일 상태를 읽고 Amazon DynamoDB에 상태를 기록하는 ETL 작업을 생성합니다.
B. 이전에 처리된 데이터를 추적하기 위해 실행 후 상태를 업데이트하려면 ETL 작업에 대한 작업 북마크를 활성화하세요.
C. Amazon CloudWatch에서 처리된 객체를 추적하는 데 도움이 되도록 ETL 작업에 대한 작업 지표를 활성화합니다.
D. 각 실행 후 Amazon S3에서 처리된 객체를 삭제하도록 ETL 작업을 구성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 93 ===
문제: 온라인 소매 회사에는 VPC에 있는 Amazon EC2 인스턴스에서 실행되는 애플리케이션이 있습니다. 회사는 VPC에 대한 흐름 로그를 수집하고
네트워크 트래픽을 분석하려고 합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon CloudWatch Logs에 흐름 로그를 게시합니다. 분석에는 Amazon Athena를 사용하십시오.
B. Amazon CloudWatch Logs에 흐름 로그를 게시합니다. 분석을 위해 Amazon OpenSearch Service 클러스터를
사용합니다.
C. 흐름 로그를 텍스트 형식으로 Amazon S3에 게시합니다. 분석에는 Amazon Athena를 사용하십시오.
D. Apache Parquet 형식으로 Amazon S3에 흐름 로그를 게시합니다. 분석에는 Amazon Athena를 사용하십시오.

정답: Suggested Answer:
D

==================================================

=== 문제 94 ===
문제: 소매 회사는 4개의 예약된 ra3.4xlarge Amazon Redshift 클러스터 노드에 거래, 매장 위치 및 고객 정보 테이블을
저장합니다. 세 테이블 모두 균일한 테이블 배포를 사용합니다. 회사는 매장 위치 테이블을 몇 년에 한두 번만 업데이트합니다. 데이터 엔지니어는
대부분의 쿼리에 대해 전체 매장 위치 테이블이 4개의 컴퓨팅 노드 모두에 지속적으로 브로드캐스트되기 때문에 Redshift 대기열이 느려지는
것을 발견했습니다. 데이터 엔지니어는 매장 위치 테이블의 브로드캐스팅을 최소화하여 쿼리 성능을 높이려고 합니다. 가장 비용 효율적인 방식으로
이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 매장 위치 테이블의 분포 방식을 EVEN 분포에서 ALL 분포로 변경합니다.
B. 매장 위치 테이블의 분산 방식을 차원이 가장 높은 컬럼을 기준으로 KEY 분산으로 변경합니다.
C. 모든 테이블의 정렬 키에 store_id라는 조인 열을 추가합니다.
D. Redshift 예약 노드를 동일한 인스턴스 패밀리에서 더 큰 인스턴스 크기로 업그레이드하십시오.

정답: Suggested Answer:
A

==================================================

=== 문제 95 ===
문제: 회사에는 Sales라는 테이블이 포함된 데이터 웨어하우스가 있습니다. 회사는 Amazon Redshift에 테이블을 저장합니다. 테이블에는
city_name이라는 열이 포함되어 있습니다. 회사는 "San" 또는 "El"로 시작하는 city_name이 있는 모든 행을 찾기 위해
테이블을 쿼리하려고 합니다. 이 요구 사항을 충족하는 SQL 쿼리는 무엇입니까?

답변 목록:
A. city_name ~ '$(San|El)*'인 Sales에서 *를 선택합니다.
B. city_name ~ '^(San|El)*'인 Sales에서 *를 선택합니다.
C. city_name ~'$(San&El)*'인 Sales에서 *를 선택합니다.
D. city_name ~ '^(San&El)*'인 Sales에서 *를 선택합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 96 ===
문제: 회사는 거의 실시간 통찰력을 생성하기 위해 온프레미스 PostgreSQL 데이터베이스에서 AWS로 고객 통화 데이터를 보내야 합니다. 솔루션은
PostgreSQL 데이터베이스에서 실행되는 운영 데이터 저장소에서 업데이트를 캡처하고 로드해야 합니다. 데이터는 지속적으로 변경됩니다. 데이터
엔지니어는 AWS Database Migration Service(AWS DMS) 지속적인 복제 작업을 구성합니다. 이 작업은 각 테이블에 대한
PostgreSQL 소스 데이터베이스 트랜잭션 로그에서 거의 실시간으로 변경 사항을 읽습니다. 그런 다음 작업은 처리를 위해 데이터를
Amazon Redshift 클러스터로 보냅니다. 데이터 엔지니어는 작업의 변경 데이터 캡처(CDC) 중에 대기 시간 문제를 발견합니다. 데이터
엔지니어는 PostgreSQL 소스 데이터베이스로 인해 대기 시간이 길어진다고 생각합니다. PostgreSQL 데이터베이스가 긴 지연 시간의
원인임을 확인하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon CloudWatch를 사용하여 DMS 작업을 모니터링합니다. CDCIncomingChanges 지표를 검사하여 원본
데이터베이스에서 CDC의 지연을 식별합니다.
B. postgresql.conf 구성 파일에 소스 데이터베이스의 논리적 복제가 구성되어 있는지 확인하십시오.
C. 소스 데이터베이스의 DMS 엔드포인트에 대해 Amazon CloudWatch Logs를 활성화합니다. 오류 메시지를 확인하세요.
D. Amazon CloudWatch를 사용하여 DMS 작업을 모니터링합니다. CDCLatencySource 지표를 검사하여 원본
데이터베이스에서 CDC의 지연을 식별합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 97 ===
문제: 실험실에서는 IoT 센서를 사용하여 프로젝트의 습도, 온도 및 압력을 모니터링합니다. 센서는 10초마다 100KB의 데이터를 전송합니다.
다운스트림 프로세스는 30초마다 Amazon S3 버킷에서 데이터를 읽습니다. 가장 짧은 지연 시간으로 S3 버킷에 데이터를 전달하는 솔루션은
무엇입니까?

답변 목록:
A. Amazon Kinesis Data Streams 및 Amazon Kinesis Data Firehose를 사용하여 S3 버킷에 데이터를
전송합니다. Kinesis Data Firehose의 기본 버퍼 간격을 사용합니다.
B. Amazon Kinesis Data Streams를 사용하여 데이터를 S3 버킷으로 전달합니다. 5개의 프로비저닝된 샤드를 사용하도록
스트림을 구성합니다.
C. Amazon Kinesis Data Streams를 사용하고 Kinesis Client Library를 호출하여 데이터를 S3 버킷으로
전달합니다. 애플리케이션에서 5초의 버퍼 간격을 사용합니다.
D. Apache Flink용 Amazon Managed Service(이전의 Amazon Kinesis Data Analytics) 및
Amazon Kinesis Data Firehose를 사용하여 S3 버킷에 데이터를 전송합니다. Kinesis Data Firehose에는
5초의 버퍼 간격을 사용합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 98 ===
문제: 한 회사는 기계 학습(ML)을 사용하여 Amazon S3 데이터 레이크에 있는 데이터에 대한 분석을 수행하려고 합니다. 회사에는 회사 내의
소비자에게 보고서를 생성할 수 있는 기능을 제공하는 두 가지 데이터 변환 요구 사항이 있습니다. 회사는 예약된 시간에 Amazon S3에
도착해야 하는 다양한 형식의 300GB 데이터에 대해 매일 변환을 수행해야 합니다. 회사는 S3 데이터 레이크에 있는 테라바이트급의 보관된
데이터를 일회성으로 변환해야 합니다. 이 회사는 Amazon Managed Workflows for Apache Airflow(Amazon
MWAA) 방향성 비순환 그래프(DAG)를 사용하여 처리를 조정합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하려면 회사가 Amazon
MWAA DAG에서 어떤 작업 조합을 예약해야 합니까? (2개를 선택하세요.)

답변 목록:
A. 매일 수신되는 데이터의 경우 AWS Glue 크롤러를 사용하여 스키마를 스캔하고 식별합니다.
B. 매일 수신되는 데이터의 경우 Amazon Athena를 사용하여 스키마를 스캔하고 식별합니다.
C. 매일 수신되는 데이터의 경우 Amazon Redshift를 사용하여 변환을 수행합니다.
D. 일일 및 보관된 데이터의 경우 Amazon EMR을 사용하여 데이터 변환을 수행합니다.
E. 보관된 데이터의 경우 Amazon SageMaker를 사용하여 데이터 변환을 수행합니다.

정답: Suggested Answer:
AD

==================================================

=== 문제 99 ===
문제: 소매 회사는 고객 주문에 대한 정보가 포함된 데이터 세트에 대한 추출, 변환 및 로드(ETL) 작업에 AWS Glue를 사용합니다. 회사는
데이터 정확성과 일관성을 보장하기 위해 특정 유효성 검사 규칙을 구현하려고 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 정확성과 일관성을 위해 데이터를 추적하려면 AWS Glue 작업 북마크를 사용하세요.
B. 사용자 지정 AWS Glue 데이터 품질 규칙 세트를 생성하여 특정 데이터 품질 검사를 정의합니다.
C. 표준 데이터 품질 검증을 위해 내장된 AWS Glue 데이터 품질 변환을 사용합니다.
D. AWS Glue 데이터 카탈로그를 사용하여 중앙 집중식 데이터 스키마와 메타데이터 리포지토리를 유지합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 100 ===
문제: 보험사는 회사에서 gzip으로 압축한 거래 데이터를 저장합니다. 회사는 비정기적인 감사를 위해 거래 데이터를 쿼리해야 합니다. 가장 비용
효율적인 방식으로 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Glacier 유연한 검색에 데이터를 저장합니다. Amazon S3 Glacier Select를 사용하여 데이터를 쿼리합니다.
B. Amazon S3에 데이터를 저장합니다. Amazon S3 Select를 사용하여 데이터를 쿼리합니다.
C. Amazon S3에 데이터를 저장합니다. Amazon Athena를 사용하여 데이터를 쿼리합니다.
D. Amazon Glacier Instant Retrieval에 데이터를 저장합니다. Amazon Athena를 사용하여 데이터를 쿼리합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 101 ===
문제: 데이터 엔지니어는 미션 크리티컬하지 않은 테이블에 데이터를 처리하고 삽입하는 Amazon Redshift 저장 프로시저 테스트를 마쳤습니다.
엔지니어는 저장 프로시저를 매일 자동으로 실행하려고 합니다. 가장 비용 효율적인 방식으로 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 저장 프로시저를 실행하기 위해 cron 작업을 예약하는 AWS Lambda 함수를 생성합니다.
B. Amazon EC2 스팟 인스턴스에서 Amazon Redshift Data API를 사용하여 저장 프로시저를 예약하고 실행합니다.
C. 일정에 따라 저장 프로시저를 실행하려면 쿼리 편집기 v2를 사용하세요.
D. 저장 프로시저를 실행하도록 AWS Glue Python 셸 작업을 예약합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 102 ===
문제: 마케팅 회사는 클릭스트림 데이터를 수집합니다. 회사는 클릭스트림 데이터를 Amazon Kinesis Data Firehose로 보내고 클릭스트림
데이터를 Amazon S3에 저장합니다. 회사는 여러 부서의 수백 명의 사용자가 사용할 일련의 대시보드를 구축하려고 합니다. 회사는 Amazon
QuickSight를 사용하여 대시보드를 개발할 것입니다. 회사는 클릭스트림 활동에 대한 일일 업데이트를 확장하고 제공할 수 있는 솔루션을
원합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 단계 조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. Amazon Redshift를 사용하여 클릭스트림 데이터를 저장하고 쿼리합니다.
B. Amazon Athena를 사용하여 클릭스트림 데이터 쿼리
C. Amazon S3 분석을 사용하여 클릭스트림 데이터를 쿼리합니다.
D. QuickSight 직접 SQL 쿼리를 통해 쿼리 데이터에 액세스합니다.
E. QuickSight SPICE(초고속, 병렬, 인메모리 계산 엔진)를 통해 쿼리 데이터에 액세스합니다. 데이터 세트에 대한 일일 새로
고침을 구성합니다.

정답: Suggested Answer:
BE

==================================================

=== 문제 103 ===
문제: 데이터 엔지니어가 데이터 조정 워크플로를 구축하고 있습니다. 데이터 엔지니어는 일부 온프레미스 리소스와 클라우드에 있는 일부 리소스를 포함하는
하이브리드 모델을 사용할 계획입니다. 데이터 엔지니어는 이식성과 오픈 소스 리소스에 우선순위를 두기를 원합니다. 데이터 엔지니어는 온프레미스
환경과 클라우드 기반 환경 모두에서 어떤 서비스를 사용해야 합니까?

답변 목록:
A. AWS 데이터 교환
B. Amazon Simple Workflow Service(Amazon SWF)
C. Apache Airflow용 Amazon 관리형 워크플로(Amazon MWAA)
D. AWS 글루

정답: Suggested Answer:
C

==================================================

=== 문제 104 ===
문제: 한 게임 회사는 NoSQL 데이터베이스를 사용하여 고객 정보를 저장합니다. 회사는 AWS로 마이그레이션할 계획입니다. 이 회사에는 높은
OLTP(온라인 트랜잭션 처리) 워크로드를 처리하고, 밀리초 단위의 성능을 제공하고, 전 세계적으로 고가용성을 제공하는 완전관리형 AWS
솔루션이 필요합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Keyspaces(Apache Cassandra용)
B. Amazon DocumentDB(MongoDB와 호환)
C. 아마존 다이나모DB
D. 아마존 타임스트림

정답: Suggested Answer:
C

==================================================

=== 문제 105 ===
문제: 데이터 엔지니어는 Amazon EventBridge 이벤트가 호출할 AWS Lambda 함수를 생성합니다. 데이터 엔지니어가
EventBridge 이벤트를 사용하여 Lambda 함수를 호출하려고 하면 AccessDeniedException 메시지가 나타납니다. 데이터
엔지니어는 예외를 어떻게 해결해야 합니까?

답변 목록:
A. Lambda 함수 실행 역할의 신뢰 정책이 EventBridge가 실행 역할을 맡을 수 있도록 허용하는지 확인하십시오.
B. EventBridge가 사용하는 IAM 역할과 Lambda 함수의 리소스 기반 정책 모두에 필요한 권한이 있는지 확인하십시오.
C. Lambda 함수가 배포된 서브넷이 프라이빗 서브넷으로 구성되어 있는지 확인하십시오.
D. EventBridge 스키마가 유효하고 이벤트 매핑 구성이 올바른지 확인하십시오.

정답: Suggested Answer:
B

==================================================

=== 문제 106 ===
문제: 한 회사는 Amazon S3 버킷을 기반으로 하는 데이터 레이크를 사용합니다. 규정을 준수하기 위해 회사는 S3 버킷에 업로드되는 파일에 두
개의 서버 측 암호화 계층을 적용해야 합니다. 회사는 AWS Lambda 함수를 사용하여 필요한 암호화를 적용하려고 합니다. 어떤 솔루션이
이러한 요구 사항을 충족합니까?

답변 목록:
A. AWS KMS 키(SSE-KMS)를 사용한 서버 측 암호화와 Amazon S3 암호화 클라이언트를 모두 사용합니다.
B. AWS KMS 키(DSSE-KMS)로 이중 계층 서버 측 암호화를 사용합니다.
C. 파일을 업로드하기 전에 고객 제공 키(SSE-C)로 서버 측 암호화를 사용합니다.
D. AWS KMS 키(SSE-KMS)로 서버 측 암호화를 사용합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 107 ===
문제: 데이터 엔지니어는 쿼리가 실행되기 전에 Amazon Athena 쿼리가 대기열에 보관되어 있음을 발견했습니다. 데이터 엔지니어는 쿼리가 대기열에
추가되는 것을 어떻게 방지할 수 있나요?

답변 목록:
A. 쿼리 결과 제한을 늘립니다.
B. 기존 작업 그룹에 대해 프로비저닝된 용량을 구성합니다.
C. 연합 쿼리를 사용하세요.
D. 기존 작업 그룹에 대해 Athena 쿼리를 실행하는 사용자를 허용합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 108 ===
문제: 데이터 엔지니어는 Amazon S3에서 읽고 Amazon Redshift에 쓰는 AWS Glue 작업을 디버깅해야 합니다. 데이터 엔지니어가
AWS Glue 작업에 대한 북마크 기능을 활성화했습니다. 데이터 엔지니어는 AWS Glue 작업의 최대 동시성을 1로 설정했습니다. AWS
Glue 작업이 Amazon Redshift에 출력을 성공적으로 쓰고 있습니다. 그러나 이전 AWS Glue 작업 실행 중에 로드된 Amazon
S3 파일은 후속 실행에서 다시 처리됩니다. AWS Glue 작업이 파일을 재처리하는 이유는 무엇입니까?

답변 목록:
A. AWS Glue 작업에는 북마크가 올바르게 작동하는 데 필요한 s3:GetObjectAcl 권한이 없습니다.
B. AWS Glue 작업의 최대 동시성은 1로 설정됩니다.
C. 데이터 엔지니어가 Glue 작업에 대해 이전 버전의 AWS Glue를 잘못 지정했습니다.
D. AWS Glue 작업에는 필수 커밋 문이 없습니다.

정답: Suggested Answer:
D

==================================================

=== 문제 109 ===
문제: 전자 상거래 회사는 AWS를 사용하여 온프레미스 환경의 데이터 파이프라인을 AWS 클라우드로 마이그레이션하려고 합니다. 회사는 현재 온프레미스
환경에서 타사 도구를 사용하여 데이터 수집 프로세스를 조정합니다. 회사는 회사에서 서버를 관리할 필요가 없는 마이그레이션 솔루션을 원합니다.
솔루션은 Python 및 Bash 스크립트를 조율할 수 있어야 합니다. 솔루션은 회사가 코드를 리팩터링하도록 요구해서는 안 됩니다. 최소한의
운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS 람다
B. Apache Airflow(Amazon MVVAA)용 Amazon 관리형 워크플로
C. AWS 단계 함수
D. AWS 글루

정답: Suggested Answer:
B

==================================================

=== 문제 110 ===
문제: 소매 회사는 PLM(제품 수명 주기 관리) 애플리케이션의 데이터를 온프레미스 MySQL 데이터베이스에 저장합니다. PLM 애플리케이션은
트랜잭션이 발생할 때 데이터베이스를 자주 업데이트합니다. 회사는 PLM 애플리케이션에서 거의 실시간으로 통찰력을 수집하고자 합니다. 회사는
Amazon Redshift 데이터 웨어하우스를 사용하여 통찰력을 다른 비즈니스 데이터 세트와 통합하고 결합된 데이터 세트를 분석하려고 합니다.
회사는 이미 온프레미스 인프라와 AWS 간에 AWS Direct Connect 연결을 설정했습니다. 최소한의 개발 노력으로 이러한 요구 사항을
충족하는 솔루션은 무엇입니까?

답변 목록:
A. JDBC(Java Database Connectivity) 연결을 사용하여 예약된 AWS Glue ETL(추출, 변환 및 로드) 작업을
실행하여 MySQL 데이터베이스 업데이트를 가져옵니다. Amazon Redshift를 ETL 작업의 대상으로 설정합니다.
B. AWS Database Migration Service(AWS DMS)에서 전체 로드와 CDC 작업을 실행하여 MySQL 데이터베이스 변경
사항을 지속적으로 복제합니다. Amazon Redshift를 작업 대상으로 설정합니다.
C. Amazon AppFlow SDK를 사용하면 MySQL 데이터베이스용 사용자 지정 커넥터를 구축하여 데이터베이스 변경 사항을 지속적으로
복제할 수 있습니다. Amazon Redshift를 커넥터의 대상으로 설정합니다.
D. 예약된 AWS DataSync 작업을 실행하여 MySQL 데이터베이스의 데이터를 동기화합니다. Amazon Redshift를 작업 대상으로
설정합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 111 ===
문제: 마케팅 회사는 Amazon S3를 사용하여 클릭스트림 데이터를 저장합니다. 회사는 별도의 버킷에 저장된 S3 객체에 대해 SQL JOIN 절을
사용하여 매일 저녁 데이터를 쿼리합니다. 회사는 개체를 기반으로 핵심성과지표(KPI)를 생성합니다. 회사에는 사용자가 데이터를 분할하여 데이터를
쿼리할 수 있는 기능을 제공하는 서버리스 솔루션이 필요합니다. 솔루션은 데이터의 ACID(원자성, 일관성, 격리 및 내구성) 속성을 유지해야
합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 아마존 S3 선택
B. 아마존 레드시프트 스펙트럼
C. 아마존 아테나
D. 아마존 EMR

정답: Suggested Answer:
C

==================================================

=== 문제 112 ===
문제: 회사는 Account_A라는 AWS 계정의 eu-east-1 리전에 있는 Amazon RDS for PostgreSQL DB 인스턴스에서
데이터를 마이그레이션하려고 합니다. 회사는 Account_B라는 AWS 계정의 eu-west-1 지역에 있는 Amazon Redshift
클러스터로 데이터를 마이그레이션합니다. AWS Database Migration Service(AWS DMS)에 두 데이터 스토어 간에 데이터를
복제하는 기능을 제공하는 솔루션은 무엇입니까?

답변 목록:
A. eu-west-1의 Account_B에 AWS DMS 복제 인스턴스를 설정합니다.
B. eu-east-1의 Account_B에 AWS DMS 복제 인스턴스를 설정합니다.
C. eu-west-1의 새 AWS 계정에 AWS DMS 복제 인스턴스를 설정합니다.
D. eu-east-1의 Account_A에 AWS DMS 복제 인스턴스를 설정합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 113 ===
문제: 한 회사는 Amazon S3를 데이터 레이크로 사용합니다. 이 회사는 다중 노드 Amazon Redshift 클러스터를 사용하여 데이터
웨어하우스를 설정했습니다. 회사는 각 데이터 파일의 데이터 소스를 기반으로 데이터 레이크에 데이터 파일을 구성합니다. 회사는 각 데이터 파일
위치에 대해 별도의 COPY 명령을 사용하여 Redshift 클러스터의 하나의 테이블에 모든 데이터 파일을 로드합니다. 이 접근 방식은 모든
데이터 파일을 테이블에 로드하는 데 오랜 시간이 걸립니다. 회사는 데이터 수집 속도를 높여야 합니다. 회사는 프로세스 비용 증가를 원하지
않습니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 프로비저닝된 Amazon EMR 클러스터를 사용하여 모든 데이터 파일을 하나의 폴더에 복사합니다. COPY 명령을 사용하여 Amazon
Redshift에 데이터를 로드합니다.
B. 모든 데이터 파일을 Amazon Aurora에 병렬로 로드합니다. AWS Glue 작업을 실행하여 Amazon Redshift에 데이터를
로드합니다.
C. AWS Give 작업을 사용하여 모든 데이터 파일을 하나의 폴더에 복사합니다. COPY 명령을 사용하여 Amazon Redshift에
데이터를 로드합니다.
D. 데이터 파일 위치가 포함된 매니페스트 파일을 만듭니다. COPY 명령을 사용하여 Amazon Redshift에 데이터를 로드합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 114 ===
문제: 한 회사는 Amazon Kinesis Data Firehose를 사용하여 Amazon S3에 데이터를 저장할 계획입니다. 소스 데이터는 2MB
.csv 파일로 구성됩니다. 회사는 .csv 파일을 JSON 형식으로 변환해야 합니다. 회사는 파일을 Apache Parquet 형식으로
저장해야 합니다. 최소한의 개발 노력으로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Kinesis Data Firehose를 사용하여 .csv 파일을 JSON으로 변환합니다. AWS Lambda 함수를 사용하여 파일을
Parquet 형식으로 저장합니다.
B. Kinesis Data Firehose를 사용하여 .csv 파일을 JSON으로 변환하고 파일을 Parquet 형식으로 저장합니다.
C. Kinesis Data Firehose를 사용하여 .csv 파일을 JSON으로 변환하고 파일을 Parquet 형식으로 저장하는 AWS
Lambda 함수를 호출합니다.
D. Kinesis Data Firehose를 사용하여 .csv 파일을 JSON으로 변환하는 AWS Lambda 함수를 호출합니다.
Kinesis Data Firehose를 사용하여 파일을 Parquet 형식으로 저장합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 115 ===
문제: 회사는 AWS Transfer Family 서버를 사용하여 온프레미스 환경에서 AWS로 데이터를 마이그레이션하고 있습니다. 회사 정책에 따라
TLS 1.2 이상을 사용하여 전송 중인 데이터를 암호화해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. Transfer Family 서버에 대한 새 SSH 키를 생성합니다. 이전 키와 새 키를 사용할 수 있도록 만드세요.
B. TLS 1.2 이상을 사용하는 연결만 허용하도록 온프레미스 네트워크에 대한 보안 그룹 규칙을 업데이트합니다.
C. TLS 1.2의 최소 프로토콜 버전을 지정하려면 Transfer Family 서버의 보안 정책을 업데이트하세요.
D. TLS 1.2를 사용하여 데이터 전송을 암호화하려면 Transfer Family 서버에 SSL 인증서를 설치하세요.

정답: Suggested Answer:
C

==================================================

=== 문제 116 ===
문제: 회사에서 애플리케이션과 온프레미스 Apache Kafka 서버를 AWS로 마이그레이션하려고 합니다. 애플리케이션은 온프레미스 Oracle
데이터베이스가 Kafka 서버로 보내는 증분 업데이트를 처리합니다. 회사에서는 리팩터링 전략 대신 리프랫폼 마이그레이션 전략을 사용하려고
합니다. 최소한의 관리 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Kinesis 데이터 스트림
B. Apache Kafka용 Amazon Managed Streaming(Amazon MSK) 프로비저닝 클러스터
C. 아마존 키네시스 데이터 파이어호스
D. Apache Kafka(Amazon MSK) 서버리스용 Amazon 관리형 스트리밍

정답: Suggested Answer:
D

==================================================

=== 문제 117 ===
문제: 데이터 엔지니어가 AWS Glue를 사용하여 자동화된 ETL(추출, 변환 및 로드) 수집 파이프라인을 구축하고 있습니다. 파이프라인은
Amazon S3 버킷에 있는 압축 파일을 수집합니다. 수집 파이프라인은 증분 데이터 처리를 지원해야 합니다. 이 요구 사항을 충족하려면 데이터
엔지니어가 사용해야 하는 AWS Glue 기능은 무엇입니까?

답변 목록:
A. 워크플로우
B. 트리거
C. 작업 북마크
D. 분류자

정답: Suggested Answer:
C

==================================================

=== 문제 118 ===
문제: 한 은행 회사는 애플리케이션을 사용하여 대량의 거래 데이터를 수집합니다. 이 회사는 실시간 분석을 위해 Amazon Kinesis Data
Streams를 사용합니다. 회사의 애플리케이션은 PutRecord 작업을 사용하여 Kinesis Data Streams로 데이터를 보냅니다.
데이터 엔지니어가 하루 중 특정 시간 동안 네트워크 중단을 관찰했습니다. 데이터 엔지니어는 전체 처리 파이프라인에 대해 정확히 1회 전달을
구성하려고 합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 소스의 각 레코드에 고유 ID를 삽입하여 처리 중에 중복 항목을 제거할 수 있도록 애플리케이션을 설계합니다.
B. 이벤트의 중복 처리를 방지하려면 Amazon Managed Service for Apache Flink(이전의 Amazon Kinesis
Data Analytics) 데이터 수집 애플리케이션의 체크포인트 구성을 업데이트하십시오.
C. 이벤트가 Kinesis Data Streams에 여러 번 수집되지 않도록 데이터 원본을 설계합니다.
D. Kinesis Data Streams 사용을 중지합니다. 대신 Amazon EMR을 사용하십시오. Amazon EMR에서 Apache
Flink 및 Apache Spark 스트리밍을 사용하십시오.

정답: Suggested Answer:
A

==================================================

=== 문제 119 ===
문제: 회사는 Amazon S3 버킷에 로그를 저장합니다. 데이터 엔지니어가 여러 로그 파일에 액세스하려고 시도할 때 데이터 엔지니어는 일부 파일이
의도치 않게 삭제되었음을 발견합니다. 데이터 엔지니어에게는 향후 의도하지 않은 파일 삭제를 방지하는 솔루션이 필요합니다. 최소한의 운영
오버헤드로 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 정기적으로 S3 버킷을 수동으로 백업합니다.
B. S3 버킷에 대해 S3 버전 관리를 활성화합니다.
C. S3 버킷에 대한 복제를 구성합니다.
D. Amazon S3 Glacier 스토리지 클래스를 사용하여 S3 버킷에 있는 데이터를 보관합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 120 ===
문제: 한 통신 회사는 초당 수천 개의 데이터 포인트의 속도로 매일 네트워크 사용 데이터를 수집합니다. 회사는 사용 데이터를 실시간으로 처리하기 위해
애플리케이션을 실행합니다. 회사는 Amazon Aurora DB 인스턴스에 데이터를 집계하고 저장합니다. 네트워크 사용량이 갑자기 감소하면
일반적으로 네트워크 중단을 나타냅니다. 회사는 네트워크 사용량의 급격한 감소를 식별하여 즉각적인 해결 조치를 취할 수 있어야 합니다. 가장 짧은
대기 시간으로 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Aurora에 네트워크 사용량 감소를 쿼리하는 AWS Lambda 함수를 생성합니다. Amazon EventBridge를 사용하여 매분
자동으로 Lambda 함수를 호출합니다.
B. Amazon Kinesis 데이터 스트림에 데이터를 게시하도록 처리 애플리케이션을 수정합니다. 네트워크 사용량 감소를 감지하기 위해
Apache Flink용 Amazon Managed Service(이전의 Amazon Kinesis Data Analytics) 애플리케이션을
생성합니다.
C. Aurora 데이터베이스를 Amazon DynamoDB 테이블로 교체합니다. 매분마다 네트워크 사용량 감소를 DynamoDB 테이블에
쿼리하는 AWS Lambda 함수를 생성합니다. 처리 애플리케이션과 DynamoDB 테이블 사이에 DynamoDB
Accelerator(DAX)를 사용합니다.
D. 네트워크 사용량 감소를 감지하려면 Aurora의 데이터베이스 활동 스트림 기능 내에서 AWS Lambda 함수를 생성하십시오.

정답: Suggested Answer:
B

==================================================

=== 문제 121 ===
문제: 데이터 엔지니어가 Amazon S3에 있는 여러 테라바이트의 원시 데이터를 처리하고 분석하고 있습니다. 데이터 엔지니어는 데이터를 정리하고
준비해야 합니다. 그런 다음 데이터 엔지니어는 분석을 위해 데이터를 Amazon Redshift에 로드해야 합니다. 데이터 엔지니어에게는 데이터
분석가에게 복잡한 쿼리를 수행할 수 있는 기능을 제공하는 솔루션이 필요합니다. 솔루션은 복잡한 ETL(추출, 변환 및 로드) 프로세스를
수행하거나 인프라를 관리할 필요성을 제거해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon EMR을 사용하여 데이터를 준비합니다. AWS Step Functions를 사용하여 Amazon Redshift에 데이터를
로드합니다. Amazon QuickSight를 사용하여 쿼리를 실행합니다.
B. AWS Glue DataBrew를 사용하여 데이터를 준비합니다. AWS Glue를 사용하여 Amazon Redshift에 데이터를
로드합니다. Amazon Redshift를 사용하여 쿼리를 실행합니다.
C. AWS Lambda를 사용하여 데이터를 준비합니다. Amazon Kinesis Data Firehose를 사용하여 Amazon
Redshift에 데이터를 로드합니다. Amazon Athena를 사용하여 쿼리를 실행하세요.
D. AWS Glue를 사용하여 데이터를 준비합니다. AWS Database Migration Service(AVVS DMS)를 사용하여
Amazon Redshift에 데이터를 로드합니다. Amazon Redshift Spectrum을 사용하여 쿼리를 실행합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 122 ===
문제: 회사는 AWS Lambda 함수를 사용하여 레거시 SFTP 환경에서 Amazon S3 버킷으로 파일을 전송합니다. Lambda 함수는 동일한
VPC 환경에 있는 Lambda 함수와 다른 AVS 서비스 간의 모든 통신이 보안 네트워크를 통해 발생하도록 보장하기 위해 VPC를 지원합니다.
Lambda 함수는 SFTP 환경에 성공적으로 연결할 수 있습니다. 그러나 Lambda 함수가 S3 버킷에 파일을 업로드하려고 하면 Lambda
함수가 시간 초과 오류를 반환합니다. 데이터 엔지니어는 안전한 방법으로 시간 초과 문제를 해결해야 합니다. 가장 비용 효율적인 방식으로 이러한
요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. VPC의 퍼블릭 서브넷에 NAT 게이트웨이를 생성합니다. 네트워크 트래픽을 NAT 게이트웨이로 라우팅합니다.
B. Amazon S3용 VPC 게이트웨이 엔드포인트를 생성합니다. 네트워크 트래픽을 VPC 게이트웨이 엔드포인트로 라우팅합니다.
C. Amazon S3용 VPC 인터페이스 엔드포인트를 생성합니다. 네트워크 트래픽을 VPC 인터페이스 엔드포인트로 라우팅합니다.
D. VPC 인터넷 게이트웨이를 사용하여 인터넷에 연결합니다. 네트워크 트래픽을 VPC 인터넷 게이트웨이로 라우팅합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 123 ===
문제: 회사는 Amazon RDS에서 실행되는 고객 데이터베이스에서 데이터를 읽습니다. 데이터베이스에는 일관성이 없는 필드가 많이 포함되어 있습니다.
예를 들어, 한 데이터베이스에서 place_id로 iP이름이 지정된 고객 레코드 필드는 다른 데이터베이스에서 location_id로 이름이
지정됩니다. 회사는 고객 기록 필드가 일치하지 않는 경우에도 여러 데이터베이스에 걸쳐 고객 기록을 연결해야 합니다. 최소한의 운영 오버헤드로
이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 데이터베이스의 데이터를 처리하고 분석하기 위해 프로비저닝된 Amazon EMR 클러스터를 생성합니다. Apache Zeppelin 노트북에
연결합니다. FindMatches 변환을 사용하여 데이터에서 중복 레코드를 찾습니다.
B. 데이터베이스를 크롤링하기 위해 AWS Glue 크롤러를 생성합니다. FindMatches 변환을 사용하여 데이터에서 중복 레코드를
찾습니다. 성능과 결과를 평가하여 변환을 평가하고 조정합니다.
C. 데이터베이스를 크롤링하기 위해 AWS Glue 크롤러를 생성합니다. Amazon SageMaker를 사용하여 Apache Spark ML
파이프라인을 구성하면 데이터에서 중복 레코드를 찾을 수 있습니다.
D. 데이터베이스의 데이터를 처리하고 분석하기 위해 프로비저닝된 Amazon EMR 클러스터를 생성합니다. Apache Zeppelin 노트북에
연결합니다. Apache Spark ML 모델을 사용하여 데이터에서 중복 레코드를 찾습니다. 성능과 결과를 평가하여 모델을 평가하고 조정합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 124 ===
문제: 금융 회사는 타사 데이터 공급자로부터 데이터를 수신하고 해당 데이터를 Amazon S3 버킷에 객체로 저장합니다. 회사는 객체에 대해 AWS
Glue 크롤러를 실행하여 데이터 카탈로그를 생성했습니다. AWS Glue 크롤러는 여러 테이블을 생성했습니다. 그러나 회사에서는 크롤러가
테이블을 하나만 생성할 것으로 예상했습니다. 회사에는 AVS Glue 크롤러가 테이블을 하나만 생성하도록 보장하는 솔루션이 필요합니다. 이 요구
사항을 충족하는 솔루션 조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. 각 개체에 대해 개체 형식, 압축 유형 및 스키마가 동일한지 확인하세요.
B. 각 개체에 대해 개체 형식과 스키마가 동일한지 확인하세요. 각 개체의 압축 유형에 일관성을 적용하지 마세요.
C. 각 객체에 대해 스키마가 동일한지 확인하세요. 각 개체의 파일 형식 및 압축 유형에 일관성을 적용하지 마십시오.
D. 각 S3 객체 이름의 접두사 구조가 일관된지 확인하세요.
E. 모든 S3 객체 이름이 비슷한 패턴을 따르는지 확인하세요.

정답: Suggested Answer:
AD

==================================================

=== 문제 125 ===
문제: 애플리케이션은 Amazon Simple Queue Service(Amazon SQS) 대기열의 메시지를 사용합니다. 애플리케이션에서 가끔 가동
중지 시간이 발생합니다. 가동 중지 시간으로 인해 대기열 내의 메시지가 만료되고 1일 후에 삭제됩니다. 메시지를 삭제하면 애플리케이션의 데이터가
손실됩니다. 애플리케이션의 데이터 손실을 최소화하는 솔루션은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. 메시지 보관 기간 늘리기
B. 공개 시간 제한을 늘립니다.
C. SQS 대기열에 배달 못한 편지 대기열(DLQ)을 연결합니다.
D. 지연 대기열을 사용하여 메시지 전달 지연
E. 메시지 처리 시간을 줄입니다.

정답: Suggested Answer:
AC

==================================================

=== 문제 126 ===
문제: 한 회사는 시계열 데이터를 시각화하기 위해 실시간에 가까운 대시보드를 만들고 있습니다. 회사는 Apache Kafka용 Amazon
Managed Streaming(Amazon MSK)으로 데이터를 수집합니다. 맞춤형 데이터 파이프라인이 데이터를 소비합니다. 그런 다음
파이프라인은 Amazon Keyspaces(Apache Cassandra용), Amazon OpenSearch Service 및 Amazon
S3의 Apache Avro 객체에 데이터를 씁니다. 가장 짧은 대기 시간으로 데이터 시각화에 데이터를 사용할 수 있게 해주는 솔루션은
무엇입니까?

답변 목록:
A. OpenSearch 서비스의 데이터를 사용하여 OpenSearch 대시보드를 만듭니다.
B. Apache Hive 메타스토어와 함께 Amazon Athena를 사용하여 Amazon S3에서 Avro 객체를 쿼리합니다. Amazon
Managed Grafana를 사용하여 Athena에 연결하고 대시보드를 생성합니다.
C. Amazon Athena를 사용하여 Amazon S3의 Avro 객체에서 데이터를 쿼리합니다. Amazon Keyspaces를 데이터
카탈로그로 구성합니다. Amazon QuickSight를 Athena에 연결하여 대시보드를 생성합니다.
D. AWS Glue를 사용하여 데이터를 분류합니다. S3 Select를 사용하여 Amazon S3에서 Avro 객체를 쿼리합니다. Amazon
QuickSight를 S3 버킷에 연결하여 대시보드를 생성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 127 ===
문제: 데이터 엔지니어는 Amazon Redshift 데이터베이스를 기반으로 하는 구체화된 보기를 유지 관리합니다. 뷰에는 각 행이 로드된 날짜를
저장하는 load_date라는 열이 있습니다. 데이터 엔지니어는 구체화된 뷰에서 모든 행을 삭제하여 데이터베이스 스토리지 공간을 회수해야
합니다. MOST 데이터베이스 저장 공간을 회수하는 명령은 무엇입니까?

답변 목록:
A. 1=1인 경우 Materialized_view_name에서 삭제
B. 구체화된_뷰_이름 자르기
C. load_date<=current_date 구체화된 VACUUM table_name
D. load_date<=current_date인 경우 구체화된_view_name에서 삭제

정답: Suggested Answer:
B

==================================================

=== 문제 128 ===
문제: 한 미디어 회사에서는 Amazon OpenSearch Service를 사용하여 인기 음악가와 노래에 대한 실시간 데이터를 분석하려고 합니다.
회사는 매일 수백만 개의 새로운 데이터 이벤트를 수집할 것으로 예상합니다. 새로운 데이터 이벤트는 Amazon Kinesis 데이터 스트림을
통해 도착합니다. 회사는 데이터를 변환한 다음 OpenSearch 서비스 도메인으로 데이터를 수집해야 합니다. 회사는 최소한의 운영 오버헤드로
데이터를 수집하기 위해 어떤 방법을 사용해야 합니까?

답변 목록:
A. Amazon Kinesis Data Firehose 및 AWS Lambda 함수를 사용하여 데이터를 변환하고 변환된 데이터를
OpenSearch Service에 전달합니다.
B. 사전 구축된 필터가 있는 Logstash 파이프라인을 사용하여 데이터를 변환하고 변환된 데이터를 OpenSearch Service에
전달합니다.
C. AWS Lambda 함수를 사용하여 Amazon Kinesis 에이전트를 호출하여 데이터를 변환하고 변환된 데이터 OpenSearch
Service를 제공합니다.
D. KCL(Kinesis Client Library)을 사용하여 데이터를 변환하고 변환된 데이터를 OpenSearch Service에
전달합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 129 ===
문제: 회사는 AWS Lake Formation 데이터 레이크에 고객 주소가 포함된 고객 데이터 테이블을 저장합니다. 새로운 규정을 준수하기 위해
회사는 사용자가 캐나다에 있는 고객의 데이터에 액세스할 수 없도록 해야 합니다. 회사에는 캐나다에 있는 고객의 행에 대한 사용자 액세스를
방지하는 솔루션이 필요합니다. 최소한의 운영 노력으로 이 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. 국가가 캐나다인 행에 대한 사용자 액세스를 방지하려면 행 수준 필터를 설정하세요.
B. 국가가 캐나다인 주소에 대한 사용자 액세스를 제한하는 IAM 역할을 생성합니다.
C. 국가가 캐나다인 행에 대한 사용자 액세스를 방지하려면 열 수준 필터를 설정하세요.
D. 캐나다가 국가인 모든 행에 태그를 적용합니다. 태그가 "Canada"인 경우 사용자 액세스를 차단합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 130 ===
문제: 한 회사가 Amazon Redshift에서 레이크 하우스 아키텍처를 구현했습니다. 회사는 사용자에게 타사 ID 공급자(IdP)를 사용하여
Redshift 쿼리 편집기에 인증할 수 있는 기능을 제공해야 합니다. 데이터 엔지니어는 인증 메커니즘을 설정해야 합니다. 이 요구 사항을
충족하기 위해 데이터 엔지니어가 취해야 할 첫 번째 단계는 무엇입니까?

답변 목록:
A. Redshift 클러스터의 구성 설정에서 타사 IdP를 ID 공급자로 등록합니다.
B. Amazon Redshift 내에서 타사 IdP를 자격 증명 공급자로 등록합니다.
C. 타사 IdP를 AVS Secrets Manager의 ID 공급자로 등록하세요. Secrets Manager를 사용하여 사용자 자격 증명을
관리하도록 Amazon Redshift를 구성합니다.
D. 타사 IdP를 AWS Certificate Manager(ACM)의 자격 증명 공급자로 등록합니다. ACM을 사용하여 사용자 자격 증명을
관리하도록 Amazon Redshift를 구성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 131 ===
문제: 한 회사는 현재 범용 Amazon EC2 인스턴스가 포함된 프로비저닝된 Amazon EMR 클러스터를 사용하고 있습니다. EMR 클러스터는
회사의 장기 실행 Apache Spark ETL(추출, 변환 및 로드) 작업을 위해 1~5개의 작업 노드 사이에서 EMR 관리형 확장을
사용합니다. 회사는 매일 ETL 작업을 실행합니다. 회사에서 ETL 작업을 실행하면 EMR 클러스터가 최대 5개 노드까지 빠르게 확장됩니다.
EMR 클러스터는 종종 최대 CPU 사용량에 도달하지만 메모리 사용량은 30% 미만으로 유지됩니다. 회사는 일일 ETL 작업을 실행하는 데 드는
EMR 비용을 줄이기 위해 EMR 클러스터 구성을 수정하려고 합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. EMR 관리형 조정을 위한 최대 작업 노드 수를 10으로 늘립니다.
B. 작업 노드 유형을 범용 EC2 인스턴스에서 메모리 최적화 EC2 인스턴스로 변경합니다.
C. 작업 노드 유형을 범용 Re 인스턴스에서 최적화된 EC2 인스턴스를 계산하도록 전환합니다.
D. 프로비저닝된 EMR 클러스터의 조정 휴지 기간을 줄입니다.

정답: Suggested Answer:
C

==================================================

=== 문제 132 ===
문제: 회사는 .csv 파일을 Amazon S3 버킷에 업로드합니다. 회사의 데이터 플랫폼 팀은 데이터 검색을 수행하고 테이블과 스키마를 생성하기 위해
AWS Glue 크롤러를 설정했습니다. AWS Glue 작업은 테이블의 처리된 데이터를 Amazon Redshift 데이터베이스에 기록합니다.
AWS Glue 작업은 열 매핑을 처리하고 Redshift 데이터베이스에 Amazon Redshift 테이블을 적절하게 생성합니다. 회사가 어떤
이유로든 AWS Glue 작업을 다시 실행하면 Amazon Redshift 테이블에 중복 레코드가 도입됩니다. 회사에는 중복 없이
Redshift 테이블을 업데이트할 솔루션이 필요합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 행을 스테이징 Redshift 테이블에 복사하도록 AWS Glue 작업을 수정합니다. 스테이징 Redshift 테이블의 새 값으로 기존
행을 업데이트하는 SQL 명령을 추가합니다.
B. 이전에 삽입된 데이터를 MySQL 데이터베이스에 로드하도록 AWS Glue 작업을 수정합니다. MySQL 데이터베이스에서 upsert
작업을 수행합니다. 결과를 Amazon Redshift 테이블에 복사합니다.
C. Apache Spark의 DataFrame dropDuplicates() API를 사용하여 중복을 제거하세요. Redshift 테이블에
데이터를 씁니다.
D. AWS Glue ResolveChoice 내장 변환을 사용하여 가장 최근 레코드에서 열 값을 선택합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 133 ===
문제: 한 회사에서 Amazon Redshift를 사용하여 데이터 웨어하우스 솔루션을 구축하고 있습니다. 회사는 Redshift 클러스터에 있는 팩트
테이블에 수백 개의 파일을 로드하고 있습니다. 회사는 가능한 최대의 처리량을 달성하기 위한 데이터 웨어하우스 솔루션을 원합니다. 솔루션은 회사가
팩트 테이블에 데이터를 로드할 때 클러스터 리소스를 최적으로 사용해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 여러 COPY 명령을 사용하여 Redshift 클러스터에 데이터를 로드합니다.
B. S3DistCp를 사용하여 HDFS(Hadoop 분산 파일 시스템)에 여러 파일을 로드합니다. HDFS 커넥터를 사용하여 Redshift
클러스터에 데이터를 수집합니다.
C. Redshift 클러스터 노드 수와 동일한 수의 INSERT 문을 사용합니다. 데이터를 각 노드에 병렬로 로드합니다.
D. 단일 COPY 명령을 사용하여 Redshift 클러스터에 데이터를 로드합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 134 ===
문제: 회사는 여러 데이터 소스에서 데이터를 수집하고 해당 데이터를 Amazon S3 버킷에 저장합니다. AWS Glue ETL(추출, 변환 및 로드)
작업은 데이터를 변환하고 변환된 데이터를 Amazon S3 기반 데이터 레이크에 씁니다. 이 회사는 Amazon Athena를 사용하여 데이터
레이크에 있는 데이터를 쿼리합니다. 회사는 기록에 공통의 고유 식별자가 없는 경우에도 일치하는 기록을 식별해야 합니다. 이 요구 사항을 충족하는
솔루션은 무엇입니까?

답변 목록:
A. ETL 작업의 일부로 Amazon Macie 패턴 일치를 사용합니다.
B. ETL 작업에서 AWS Glue PySpark 필터 클래스를 훈련하고 사용합니다.
C. 테이블을 분할하고 ETL 작업을 사용하여 고유 식별자에 따라 데이터를 분할합니다.
D. ETL 작업에서 AWS Lake Formation FindMatches 변환을 훈련하고 사용합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 135 ===
문제: 데이터 엔지니어는 AWS Glue 크롤러를 사용하여 Amazon S3 버킷에 있는 데이터를 카탈로그화하고 있습니다. S3 버킷에는 .csv 및
json 파일이 모두 포함되어 있습니다. 데이터 엔지니어는 카탈로그에서 .json 파일을 제외하도록 크롤러를 구성했습니다. 데이터 엔지니어가
Amazon Athena에서 쿼리를 실행하면 쿼리는 제외된 .json 파일도 처리합니다. 데이터 엔지니어는 이 문제를 해결하려고 합니다. 데이터
엔지니어에게는 소스 S3 버킷의 .csv 파일에 대한 액세스 요구 사항에 영향을 주지 않는 솔루션이 필요합니다. 가장 짧은 쿼리 시간으로 이
요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue 크롤러가 .json 파일도 제외하도록 AWS Glue 크롤러 설정을 조정합니다.
B. Athena 콘솔을 사용하여 Athena 쿼리가 .json 파일도 제외하는지 확인합니다.
C. .json 파일을 S3 버킷 내의 다른 경로로 재배치합니다.
D. S3 버킷 정책을 사용하여 .json 파일에 대한 액세스를 차단합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 136 ===
문제: 데이터 엔지니어는 Amazon S3 버킷에 저장된 객체를 읽도록 AWS Lambda 함수를 설정했습니다. 객체는 AWS KMS 키로
암호화됩니다. 데이터 엔지니어는 S3 버킷에 액세스하도록 Lambda 함수의 실행 역할을 구성했습니다. 그러나 Lambda 함수에 오류가
발생하여 객체의 콘텐츠를 검색하지 못했습니다. 오류의 가능한 원인은 무엇입니까?

답변 목록:
A. 데이터 엔지니어가 S3 버킷의 권한을 잘못 구성했습니다. Lambda 함수가 객체에 액세스할 수 없습니다.
B. Lambda 함수가 오래된 SDK 버전을 사용하고 있어 읽기 오류가 발생했습니다.
C. S3 버킷은 데이터 엔지니어가 근무하는 리전과 다른 AWS 리전에 있습니다. 지연 시간 문제로 인해 Lambda 함수에 오류가
발생했습니다.
D. Lambda 함수의 실행 역할에는 S3 객체를 해독할 수 있는 KMS 키에 액세스하는 데 필요한 권한이 없습니다.

정답: Suggested Answer:
D

==================================================

=== 문제 137 ===
문제: 한 데이터 엔지니어가 1,000개의 AWS Glue 데이터 카탈로그 테이블에 데이터 품질 규칙을 구현했습니다. 최근 비즈니스 요구 사항이
변경되었기 때문에 데이터 엔지니어는 데이터 품질 규칙을 편집해야 합니다. 데이터 엔지니어는 최소한의 운영 오버헤드로 이 요구 사항을 어떻게
충족해야 합니까?

답변 목록:
A. AWS Glue ETL에서 파이프라인을 생성하여 1,000개의 Data Catalog 테이블 각각에 대한 규칙을 편집합니다. AWS
Lambda 함수를 사용하여 각 Data Catalog 테이블에 대해 해당 AWS Glue 작업을 호출합니다.
B. 편집을 위해 AWS Glue 데이터 품질에 대한 API 호출을 수행하는 AWS Lambda 함수를 생성합니다.
C. Amazon EMR 클러스터를 생성합니다. 각 Data Catalog 테이블의 규칙을 편집하는 파이프라인을 Amazon EMR에서
실행합니다. AWS Lambda 함수를 사용하여 EMR 파이프라인을 실행합니다.
D. AWS Management Console을 사용하여 Data Catalog 내의 규칙을 편집합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 138 ===
문제: 두 명의 개발자가 별도의 애플리케이션 릴리스를 개발하고 있습니다. 개발자는 GitHub 저장소의 마스터 분기를 소스로 사용하여 분기 A 및 분기
B라는 기능 분기를 만들었습니다. 지점 A의 개발자는 프로덕션 시스템에 코드를 배포했습니다. 브랜치 B의 코드는 다음 주 예정된 애플리케이션
릴리스에서 마스터 브랜치로 병합됩니다. 개발자가 마스터 브랜치에 풀 요청을 보내기 전에 브랜치 B의 개발자는 어떤 명령을 실행해야 합니까?

답변 목록:
A. git diff 브랜치B 마스터 git commit -m
B. 자식 풀 마스터
C. git 리베이스 마스터
D. git fetch -b 마스터

정답: Suggested Answer:
C

==================================================

=== 문제 139 ===
문제: 회사는 Amazon Resdshift에 직원 데이터를 저장합니다. Employee라는 테이블은 지역 ID, 부서 ID 및 역할 ID라는 열을
복합 정렬 키로 사용합니다. 테이블의 복합 정렬 키를 사용하여 쿼리 속도를 가장 높이는 쿼리는 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. 지역 ID='북미'인 직원에서 *를 선택합니다.
B. 지역 ID='북미', 부서 ID=20인 직원에서 *를 선택합니다.
C. 부서 ID=20이고 지역 ID='북미'인 직원에서 *를 선택합니다.
D. 역할 ID=50인 직원에서 *를 선택합니다.
E. 지역 ID='북미' 및 역할 ID=50인 직원에서 *를 선택합니다.

정답: Suggested Answer:
AB

==================================================

=== 문제 140 ===
문제: 회사는 전 세계에 위치한 테스트 시설로부터 테스트 결과를 받습니다. 회사는 테스트 결과를 Amazon S3 버킷에 수백만 개의 1KB JSON
파일로 저장합니다. 데이터 엔지니어는 파일을 처리하고 이를 Apache Parquet 형식으로 변환한 다음 Amazon Redshift 테이블에
로드해야 합니다. 데이터 엔지니어는 AWS Glue를 사용하여 파일을 처리하고, AWS Step Functions를 사용하여 프로세스를
조정하고, Amazon EventBridge를 사용하여 작업을 예약합니다. 회사는 최근 더 많은 테스트 시설을 추가했습니다. 파일 처리에 필요한
시간이 늘어나고 있습니다. 데이터 엔지니어는 데이터 처리 시간을 줄여야 합니다. 어떤 솔루션이 데이터 처리 시간을 가장 많이 줄여줄까요?

답변 목록:
A. AWS Lambda를 사용하여 원시 입력 파일을 더 큰 파일로 그룹화합니다. 더 큰 파일을 Amazon S3에 다시 씁니다. AWS
Glue를 사용하여 파일을 처리합니다. Amazon Redshift 테이블에 파일을 로드합니다.
B. AWS Glue 동적 프레임 파일 그룹화 옵션을 사용하여 원시 입력 파일을 수집합니다. 파일을 처리합니다. Amazon Redshift
테이블에 파일을 로드합니다.
C. Amazon Redshift COPY 명령을 사용하여 원시 입력 파일을 Amazon S3에서 Amazon Redshift 테이블로 직접
이동합니다. Amazon Redshift에서 파일을 처리합니다.
D. AWS Glue 대신 Amazon EMR을 사용하여 원시 입력 파일을 그룹화합니다. Amazon EMR에서 파일을 처리합니다. Amazon
Redshift 테이블에 파일을 로드합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 141 ===
문제: 데이터 엔지니어는 Amazon Managed Workflows for Apache Airflow(Amazon MWAA)를 사용하여 AWS
계정에서 데이터 파이프라인을 실행합니다. 최근 워크플로를 실행하지 못했습니다. 데이터 엔지니어는 Apache Airflow 로그를 사용하여
워크플로 오류를 진단해야 합니다. 데이터 엔지니어는 실패 원인을 진단하기 위해 어떤 로그 유형을 사용해야 합니까?

답변 목록:
A. YourEnvironmentName-WebServer
B. YourEnvironmentName-Scheduler
C. YourEnvironmentName-DAG처리
D. YourEnvironmentName-작업

정답: Suggested Answer:
D

==================================================

=== 문제 142 ===
문제: 금융 회사는 Amazon Redshift를 데이터 웨어하우스로 사용합니다. 회사는 공유 Amazon S3 버킷에 데이터를 저장합니다. 이 회사는
Amazon Redshift Spectrum을 사용하여 S3 버킷에 저장된 데이터에 액세스합니다. 데이터는 인증된 제3자 데이터 제공업체로부터
제공됩니다. 각 타사 데이터 제공업체에는 고유한 연결 세부정보가 있습니다. 규정을 준수하기 위해 회사는 회사의 AWS 환경 외부에서 데이터에
액세스할 수 없도록 해야 합니다. 이러한 요구 사항을 충족하기 위해 회사는 어떤 단계 조합을 취해야 합니까? (2개를 선택하세요.)

답변 목록:
A. 기존 Redshift 클러스터를 프라이빗 서브넷에 있는 새 Redshift 클러스터로 교체합니다. 인터페이스 VPC 엔드포인트를 사용하여
Redshift 클러스터에 연결합니다. NAT 게이트웨이를 사용하여 Redshift에 S3 버킷에 대한 액세스 권한을 부여합니다.
B. 각 데이터 공급자에 대해 AWS CloudHSM 하드웨어 보안 모듈(HSM)을 생성합니다. 각 데이터 공급자에 해당하는 HSM을 사용하여
각 데이터 공급자의 데이터를 암호화합니다.
C. Amazon Redshift 클러스터에 대한 향상된 VPC 라우팅을 활성화합니다. AWS Direct Connect 연결을 설정하고 각
데이터 공급자와 금융 회사의 VPC 간의 연결을 구성합니다.
D. 기본 키와 외래 키에 대한 테이블 제약 조건을 정의합니다.
E. 통합 쿼리를 사용하여 각 데이터 공급자의 데이터에 액세스합니다. S3 버킷에 데이터를 업로드하지 마십시오. 게이트웨이 VPC 엔드포인트를
통해 통합 쿼리를 수행합니다.

정답: Suggested Answer:
AC

==================================================

=== 문제 143 ===
문제: 여러 데이터 소스의 파일은 정기적으로 Amazon S3 버킷에 도착합니다. 데이터 엔지니어는 새 파일이 S3 버킷에 도착하면 거의 실시간으로
Amazon Redshift에 새 파일을 수집하려고 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 쿼리 편집기 v2를 사용하여 COPY 명령을 예약하여 Amazon Redshift에 새 파일을 로드합니다.
B. Amazon Aurora와 Amazon Redshift 간의 제로 ETL 통합을 사용하여 Amazon Redshift에 새 파일을
로드합니다.
C. AWS Glue 작업 북마크를 사용하여 ETL(추출, 변환 및 로드)을 통해 Amazon Redshift에 새 파일을 로드합니다.
D. S3 이벤트 알림을 사용하여 Amazon Redshift에 새 파일을 로드하는 AWS Lambda 함수를 호출합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 144 ===
문제: 현재 한 기술 회사는 Amazon Kinesis Data Streams를 사용하여 실시간으로 로그 데이터를 수집합니다. 회사는 다운스트림 실시간
쿼리에 Amazon Redshift를 사용하고 로그 데이터를 강화하려고 합니다. 최소한의 운영 오버헤드로 Amazon Redshift에 데이터를
수집하는 솔루션은 무엇입니까?

답변 목록:
A. Redshift 프로비저닝된 클러스터 테이블로 데이터를 보내도록 Amazon Kinesis Data Firehose 전송 스트림을
설정합니다.
B. Amazon S3로 데이터를 전송하도록 Amazon Kinesis Data Firehose 전송 스트림을 설정합니다. 1분마다 데이터를
로드하도록 Redshift 프로비저닝된 클러스터를 구성합니다.
C. Redshift 프로비저닝된 클러스터 테이블에 데이터를 직접 전송하도록 Apache Flink용 Amazon Managed
Service(이전의 Amazon Kinesis Data Analytics)를 구성합니다.
D. Kinesis Data Streams에서 Amazon Redshift 스트리밍 수집을 사용하고 데이터를 구체화된 보기로 표시합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 145 ===
문제: 회사는 온프레미스 Oracle 데이터베이스에 데이터 웨어하우스를 유지 관리합니다. 회사는 AWS에 데이터 레이크를 구축하려고 합니다. 회사는
데이터 웨어하우스 테이블을 Amazon S3에 로드하고 매일 데이터 웨어하우스에서 도착하는 증분 데이터와 테이블을 동기화하려고 합니다. 각
테이블에는 단조 증가하는 값이 포함된 열이 있습니다. 각 테이블의 크기는 50GB 미만입니다. 데이터 웨어하우스 테이블은 매일 밤 오전 1시부터
오전 2시 사이에 새로 고쳐집니다. 비즈니스 인텔리전스 팀은 매일 오전 10시부터 오후 8시 사이에 테이블을 쿼리합니다. 어떤 솔루션이 운영상
가장 효율적인 방식으로 이러한 요구 사항을 충족합니까?

답변 목록:
A. AWS Database Migration Service(AWS DMS) 전체 로드와 CDC 작업을 사용하여 온프레미스 데이터 웨어하우스에서
단조롭게 증가하는 데이터 열이 포함된 테이블을 Amazon S3로 로드합니다. AWS Glue의 사용자 지정 로직을 사용하여 Amazon S3에
있는 전체 로드 복사본에 일일 증분 데이터를 추가합니다.
B. AWS Glue JDBC(Java Database Connectivity) 연결을 사용합니다. 단조롭게 증가하는 값이 포함된 열에 대한
작업 북마크를 구성합니다. Amazon S3에 있는 전체 로드 복사본에 일일 증분 데이터를 추가하는 사용자 지정 논리를 작성합니다.
C. AWS Database Migration Service(AWS DMS) 전체 로드 마이그레이션을 사용하여 매일 데이터 웨어하우스 테이블을
Amazon S3에 로드합니다. 매일 전날의 전체 로드 복사본을 덮어씁니다.
D. AWS Glue를 사용하여 매일 데이터 웨어하우스 테이블의 전체 복사본을 Amazon S3에 로드합니다. 매일 전날의 전체 로드 복사본을
덮어씁니다.

정답: Suggested Answer:
A

==================================================

=== 문제 146 ===
문제: 한 회사가 새로운 분석 팀을 위해 데이터 레이크를 구축하고 있습니다. 이 회사는 스토리지에 Amazon S3를 사용하고 쿼리 분석에 Amazon
Athena를 사용하고 있습니다. Amazon S3에 있는 모든 데이터는 Apache Parquet 형식입니다. 회사는 회사 데이터 센터에서
새로운 Oracle 데이터베이스를 소스 시스템으로 운영하고 있습니다. 이 회사의 Oracle 데이터베이스에는 70개의 테이블이 있습니다. 모든
테이블에는 기본 키가 있습니다. 데이터는 때때로 소스 시스템에서 변경될 수 있습니다. 회사는 매일 테이블을 데이터 레이크에 수집하려고 합니다.
최소한의 노력으로 이 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. Oracle 데이터베이스에서 데이터를 읽으려면 Amazon EMR에서 Apache Sqoop 작업을 생성합니다. Parquet 형식으로
Amazon S3에 데이터를 쓰도록 Sqoop 작업을 구성합니다.
B. Oracle 데이터베이스에 대한 AWS Glue 연결을 생성합니다. 데이터를 증분적으로 수집하고 데이터를 Parquet 형식으로
Amazon S3에 쓰는 AWS Glue 북마크 작업을 생성합니다.
C. 지속적인 복제를 위한 AWS Database Migration Service(AWS DMS) 작업을 생성합니다. Oracle 데이터베이스를
소스로 설정합니다. Amazon S3를 대상으로 설정합니다. Parquet 형식으로 데이터를 쓰도록 작업을 구성합니다.
D. Amazon RDS에서 Oracle 데이터베이스를 생성합니다. AWS Database Migration Service(AWS DMS)를
사용하여 온프레미스 Oracle 데이터베이스를 Amazon RDS로 마이그레이션합니다. 변경된 레코드를 Parquet 형식으로 Amazon
S3에 기록하기 위해 AWS Lambda 함수를 호출하도록 테이블에 트리거를 구성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 147 ===
문제: 운송 회사는 지리적 위치 기록을 캡처하여 차량 이동을 추적하려고 합니다. 레코드 크기는 10바이트입니다. 회사는 초당 최대 10,000개의
레코드를 수신합니다. 신뢰할 수 없는 네트워크 상태로 인해 몇 분의 데이터 전송 지연이 허용됩니다. 운송 회사는 Amazon Kinesis
Data Streams를 사용하여 지리적 위치 데이터를 수집하려고 합니다. 회사에는 Kinesis Data Streams로 데이터를 전송하기
위한 안정적인 메커니즘이 필요합니다. 회사는 Kinesis 샤드의 처리량 효율성을 극대화해야 합니다. 어떤 솔루션이 운영상 가장 효율적인
방식으로 이러한 요구 사항을 충족합니까?

답변 목록:
A. Kinesis 에이전트
B. Kinesis 생산자 라이브러리(KPL)
C. 아마존 키네시스 데이터 파이어호스
D. 키네시스 SDK

정답: Suggested Answer:
B

==================================================

=== 문제 148 ===
문제: 투자 회사는 지속적으로 증가하는 대량의 반정형 데이터에서 인사이트를 관리하고 추출해야 합니다. 데이터 엔지니어는 반구조화된 데이터의 중복을
제거하고, 중복된 레코드를 제거하고, 일반적인 중복 철자 오류를 제거해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은
무엇입니까?

답변 목록:
A. 중복 레코드를 제거하려면 AWS Glue의 FindMatches 기능을 사용하십시오.
B. Amazon Athena에서 Windows 이외의 기능을 사용하여 중복 레코드를 제거합니다.
C. Amazon Neptune ML 및 Apache Gremlin 스크립트를 사용하여 중복 레코드를 제거합니다.
D. 중복 데이터를 방지하려면 Amazon DynamoDB의 글로벌 테이블 기능을 사용하십시오.

정답: Suggested Answer:
A

==================================================

=== 문제 149 ===
문제: 한 회사에서는 제품을 자동으로 재주문하기 위한 재고 관리 시스템과 재고 재주문 시스템을 구축하고 있습니다. 두 시스템 모두 Amazon
Kinesis Data Streams를 사용합니다. 재고 관리 시스템은 Amazon Kinesis Producer Library(KPL)를
사용하여 데이터를 스트림에 게시합니다. 재고 재주문 시스템은 Amazon Kinesis Client Library(KCL)를 사용하여 스트림의
데이터를 소비합니다. 회사는 필요에 따라 스트림을 확장 및 축소하도록 구성합니다. 회사는 시스템을 프로덕션 환경에 배포하기 전에 재고 재주문
시스템이 중복된 데이터를 수신했다는 사실을 발견했습니다. 재정렬 시스템이 중복된 데이터를 수신하게 만든 원인은 무엇입니까? (2개를
선택하세요.)

답변 목록:
A. 생산자에게 네트워크 관련 시간 초과가 발생했습니다.
B. IteratorAgeMilliseconds 지표에 대한 스트림 값이 너무 높습니다.
C. 샤드, 레코드 프로세서 또는 둘 다의 수가 변경되었습니다.
D. AggregationEnabled 구성 속성이 true로 설정되었습니다.
E. max_records 구성 특성이 너무 높은 숫자로 설정되었습니다.

정답: Suggested Answer:
AC

==================================================

=== 문제 150 ===
문제: 전자 상거래 회사는 AWS에서 호스팅되는 여러 운영 체제에 걸쳐 복잡한 주문 이행 프로세스를 운영합니다. 각 운영 체제에는 최신 처리 상태가
캡처되는 JDBC(Java Database Connectivity) 호환 관계형 데이터베이스가 있습니다. 회사는 운영팀에 전체 이행 프로세스에
걸쳐 시간 단위로 주문을 추적할 수 있는 기능을 제공해야 합니다. 최소한의 개발 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue를 사용하여 운영 체제에서 Amazon Redshift로 수집 파이프라인을 구축하고 Amazon QuickSight에서
주문을 추적하는 대시보드를 구축합니다.
B. AWS Glue를 사용하여 운영 체제에서 주문을 추적하는 Amazon QuickSight의 Amazon DynamoDBuild 대시보드로
수집 파이프라인을 구축합니다.
C. AWS Database Migration Service(AWS DMS)를 사용하여 운영 체제에서 변경된 기록을 캡처합니다. 소스
데이터베이스와 다른 AWS 리전에 있는 Amazon DynamoDB 테이블에 변경 사항을 게시합니다. 주문을 추적하는 Grafana 대시보드를
구축하세요.
D. AWS Database Migration Service(AWS DMS)를 사용하여 운영 체제에서 변경된 기록을 캡처합니다. 소스
데이터베이스와 다른 AWS 리전에 있는 Amazon DynamoDB 테이블에 변경 사항을 게시합니다. 주문을 추적하는 Amazon
QuickSight 대시보드를 구축하십시오.

정답: Suggested Answer:
A

==================================================

=== 문제 151 ===
문제: 데이터 엔지니어는 Amazon Neptune을 사용하여 그래프 애플리케이션을 개발해야 합니다. 엔지니어는 그래프 애플리케이션을 개발하기 위해
어떤 프로그래밍 언어를 사용해야 합니까? (2개를 선택하세요.)

답변 목록:
A. 그렘린
B. SQL
C. ANSI SQL
D. 스파클
E. 스파크 SQL

정답: Suggested Answer:
AD

==================================================

=== 문제 152 ===
문제: 모바일 게임 회사가 게임 앱에서 데이터를 캡처하려고 합니다. 회사는 세 명의 내부 데이터 소비자가 데이터를 사용할 수 있도록 하려고 합니다.
데이터 레코드의 크기는 약 20KB입니다. 회사는 게임 앱을 실행하는 각 장치에서 최적의 처리량을 달성하려고 합니다. 또한 회사는 데이터
스트림을 처리하는 애플리케이션을 개발하려고 합니다. 스트림 처리 애플리케이션에는 각 내부 소비자에 대한 전용 처리량이 있어야 합니다. 어떤
솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. PutRecords API 작업을 호출하여 Amazon Kinesis Data Streams로 데이터를 전송하도록 모바일 앱을 구성합니다.
각 내부 소비자에 대한 스트림과 함께 향상된 팬아웃 기능을 사용하세요.
B. PutRecordBatch API 작업을 호출하여 Amazon Kinesis Data Firehose로 데이터를 전송하도록 모바일 앱을
구성합니다. 회사의 AWS 계정에 대한 전용 처리량을 활성화하려면 AWS 지원 사례를 제출하십시오. 각 내부 소비자가 스트림에 액세스할 수
있도록 허용합니다.
C. Amazon Kinesis Producer Library(KPL)를 사용하여 Amazon Kinesis Data Firehose로 데이터를
전송하도록 모바일 앱을 구성합니다. 각 내부 소비자에 대한 스트림과 함께 향상된 팬아웃 기능을 사용하세요.
D. PutRecords API 작업을 호출하여 Amazon Kinesis Data Streams로 데이터를 전송하도록 모바일 앱을 구성합니다.
Amazon EC2 인스턴스의 각 내부 소비자에 대한 스트림 처리 애플리케이션을 호스팅합니다. EC2 인스턴스에 대한 자동 크기 조정을
구성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 153 ===
문제: 소매 회사는 Amazon Redshift 데이터 웨어하우스와 Amazon S3 버킷을 사용합니다. 회사는 매일 소매 주문 데이터를 S3 버킷으로
수집합니다. 회사는 S3 버킷 내의 단일 경로에 모든 주문 데이터를 저장합니다. 데이터에 100개가 넘는 열이 있습니다. 회사는 매일 CSV
형식으로 30개 이상의 파일을 생성하는 타사 애플리케이션에서 주문 데이터를 수집합니다. 각 CSV 파일의 크기는 50MB에서 70MB
사이입니다. 이 회사는 Amazon Redshift Spectrum을 사용하여 열 세트를 선택하는 쿼리를 실행합니다. 사용자는 일일 주문을
기준으로 측정항목을 집계합니다. 최근 사용자들은 쿼리 성능이 저하되었다고 보고했습니다. 데이터 엔지니어는 쿼리에 대한 성능 문제를 해결해야
합니다. 최소한의 개발 노력으로 이 요구 사항을 충족하는 단계 조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. 열 형식으로 파일을 생성하도록 타사 애플리케이션을 구성합니다.
B. 여러 개의 일일 CSV 파일을 매일 하나의 파일로 변환하는 AWS Glue ETL 작업을 개발합니다.
C. 주문 날짜를 기준으로 S3 버킷의 주문 데이터를 분할합니다.
D. JSON 형식으로 파일을 생성하도록 타사 애플리케이션을 구성합니다.
E. SUPER 유형 열의 Amazon Redshift 테이블에 JSON 데이터를 로드합니다.

정답: Suggested Answer:
AC

==================================================

=== 문제 154 ===
문제: 회사는 고객 기록을 Amazon S3에 저장합니다. 회사는 고객기록 데이터가 생성된 후 7년 동안 해당 고객기록 데이터를 삭제하거나 수정해서는
안 됩니다. 또한 루트 사용자는 데이터를 삭제하거나 수정할 수 있는 권한이 없어야 합니다. 데이터 엔지니어는 S3 객체 잠금을 사용하여 데이터를
보호하려고 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. S3 버킷에서 거버넌스 모드를 활성화합니다. 기본 보존 기간인 7년을 사용합니다.
B. S3 버킷에서 규정 준수 모드를 활성화합니다. 기본 보존 기간인 7년을 사용합니다.
C. S3 버킷의 개별 객체에 법적 보존을 적용합니다. 보존 기간을 7년으로 설정합니다.
D. S3 버킷의 개별 객체에 대한 보존 기간을 7년으로 설정합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 155 ===
문제: 데이터 엔지니어는 Amazon Athena에서 old_table이라는 기존 테이블과 동일한 스키마를 가진 새로운 빈 테이블을 생성해야 합니다.
데이터 엔지니어는 이 요구 사항을 충족하기 위해 어떤 SQL 문을 사용해야 합니까?

답변 목록:
A. CREATE TABLE new_table AS SELECT * FROM old_tables;
B. INSERT INTO new_table SELECT * FROM old_table;
C. CREATE TABLE new_table (LIKE old_table);
D. 데이터 없이 new_table AS(SELECT * FROM old_table)를 생성합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 156 ===
문제: 데이터 엔지니어는 city_world라는 기존 Athena 테이블의 데이터 하위 집합을 기반으로 Amazon Athena 테이블을 생성해야
합니다. city_world 테이블에는 전 세계에 위치한 도시가 포함되어 있습니다. 데이터 엔지니어는 미국에 있는 city_world의 도시만
포함하도록 city_us라는 새 테이블을 생성해야 합니다. 데이터 엔지니어는 이 요구 사항을 충족하기 위해 어떤 SQL 문을 사용해야 합니까?

답변 목록:
A. INSERT INTO city_usa (city,state) SELECT 도시, 주 FROM city_world WHERE
country='usa';
B. 도시, 주를 도시_세계에서 도시_미국으로 이동합니다. WHERE 국가='미국';
C. INSERT INTO city_usa SELECT 도시, 주 FROM city_world WHERE country='usa';
D. UPDATE city_usa SET (시, 주) = (SELECT 도시, 주 FROM city_world WHERE 국가='미국');

정답: Suggested Answer:
A

==================================================

=== 문제 157 ===
문제: 회사는 중앙 거버넌스 계정이 있는 데이터 메시를 구현합니다. 회사는 거버넌스 계정의 모든 데이터를 카탈로그화해야 합니다. 거버넌스 계정은 AWS
Lake Formation을 사용하여 중앙에서 데이터를 공유하고 액세스 권한을 부여합니다. 이 회사는 Amazon Redshift
Serverless 테이블 그룹을 포함하는 새로운 데이터 제품을 만들었습니다. 데이터 엔지니어는 데이터 제품을 마케팅 팀과 공유해야 합니다.
마케팅팀은 열의 하위 집합에만 액세스할 수 있어야 합니다. 데이터 엔지니어는 규정 준수 팀과 동일한 데이터 제품을 공유해야 합니다. 규정 준수
팀은 마케팅 팀이 액세스해야 하는 것과 다른 열 하위 집합에 액세스할 수 있어야 합니다. 이러한 요구 사항을 충족하기 위해 데이터 엔지니어는
어떤 단계 조합을 수행해야 합니까? (2개를 선택하세요.)

답변 목록:
A. 공유해야 하는 테이블의 뷰를 만듭니다. 필수 열만 포함하세요.
B. 공유해야 하는 테이블을 포함하는 Amazon Redshift 데이터 공유를 생성합니다.
C. 마케팅 팀 계정에 Amazon Redshift 관리형 VPC 엔드포인트를 생성합니다. 마케팅 팀에 보기에 대한 액세스 권한을 부여하십시오.
D. 거버넌스 계정의 Lake Formation 카탈로그에 Amazon Redshift 데이터 공유를 공유합니다.
E. Amazon Redshift 데이터 공유를 마케팅 팀 계정의 Amazon Redshift Serverless 작업 그룹과 공유합니다.

정답: Suggested Answer:
BD

==================================================

=== 문제 158 ===
문제: 한 회사가 Amazon S3에 데이터 레이크를 가지고 있습니다. 이 회사는 AWS Glue를 사용하여 데이터를 카탈로그화하고 AWS Glue
Studio를 사용하여 데이터 추출, 변환 및 로드(ETL) 파이프라인을 구현합니다. 회사는 파이프라인이 실행될 때마다 데이터 품질 문제를
확인해야 합니다. 데이터 엔지니어는 사전 정의된 임계값을 기반으로 데이터 품질 규칙을 평가하기 위해 기존 파이프라인을 향상해야 합니다. 최소한의
구현 노력으로 이러한 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. 각 Glue ETL 작업에 SQL 쿼리로 정의된 새 변환을 추가합니다. SQL 쿼리를 사용하여 평가해야 하는 데이터 품질 규칙이 포함된
규칙 세트를 구현합니다.
B. 각 Glue ETL 작업에 새로운 데이터 품질 평가 변환을 추가합니다. DQDL(데이터 품질 정의 언어)을 사용하여 평가해야 하는 데이터
품질 규칙이 포함된 규칙 세트를 구현합니다.
C. 각 Glue ETL 작업에 새로운 사용자 정의 변환을 추가합니다. PyDeequ 라이브러리를 사용하여 평가해야 하는 데이터 품질 규칙이
포함된 규칙 세트를 구현하세요.
D. 각 Glue ETL 작업에 새로운 사용자 정의 변환을 추가합니다. Great Expectations 라이브러리를 사용하여 평가해야 하는
데이터 품질 규칙이 포함된 규칙 세트를 구현하세요.

정답: Suggested Answer:
B

==================================================

=== 문제 159 ===
문제: 회사에 마이크로서비스 아키텍처를 사용하는 애플리케이션이 있습니다. 이 회사는 Amazon Elastic Kubernetes
Services(Amazon EKS) 클러스터에서 애플리케이션을 호스팅합니다. 회사는 애플리케이션에 대한 강력한 모니터링 시스템을 설정하려고
합니다. 회사는 EKS 클러스터 및 애플리케이션의 로그를 분석해야 합니다. 회사는 전체 애플리케이션 요청 흐름에서 실패 지점을 식별하기 위해
클러스터 로그를 애플리케이션 추적과 연관시켜야 합니다. 최소한의 개발 노력으로 이러한 요구 사항을 충족하는 단계 조합은 무엇입니까? (2개를
선택하세요.)

답변 목록:
A. FluentBit을 사용하여 로그를 수집합니다. OpenTelemetry를 사용하여 추적을 수집합니다.
B. Amazon CloudWatch를 사용하여 로그를 수집합니다. Amazon Kinesis를 사용하여 추적을 수집합니다.
C. Amazon CloudWatch를 사용하여 로그를 수집합니다. Amazon Managed Streaming for Apache
Kafka(Amazon MSK)를 사용하여 추적을 수집합니다.
D. Amazon OpenSearch를 사용하여 로그와 추적을 상호 연결합니다.
E. AWS Glue를 사용하여 로그와 추적을 상호 연결합니다.

정답: Suggested Answer:
AD

==================================================

=== 문제 160 ===
문제: 한 회사에 Amazon DynamoDB 테이블에 데이터를 저장하는 게임 애플리케이션이 있습니다. 데이터 엔지니어는 게임 데이터를 Amazon
OpenSearch Service 클러스터로 수집해야 합니다. 데이터 업데이트는 거의 실시간으로 이루어져야 합니다. 어떤 솔루션이 이러한 요구
사항을 충족합니까?

답변 목록:
A. AWS Step Functions를 사용하여 Amazon DynamoDB 테이블의 데이터를 Amazon S3 버킷으로 주기적으로
내보냅니다. AWS Lambda 함수를 사용하여 Amazon OpenSearch Service에 데이터를 로드합니다.
B. 거의 실시간으로 데이터를 전송하기 위해 Amazon DynamoDB의 소스와 Amazon OpenSearch Service의 대상을 갖도록
AWS Glue 작업을 구성합니다.
C. Amazon DynamoDB 스트림을 사용하여 테이블 변경 사항을 캡처합니다. AWS Lambda 함수를 사용하여 Amazon
OpenSearch Service의 데이터를 처리하고 업데이트합니다.
D. 사용자 지정 OpenSearch 플러그인을 사용하여 Amazon DynamoDB 테이블의 데이터를 동기화합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 161 ===
문제: 한 회사는 데이터 웨어하우스 서비스로 Amazon Redshift를 사용합니다. 데이터 엔지니어는 물리적 데이터 모델을 설계해야 합니다. 데이터
엔지니어는 크기가 점점 커지고 있는 비정규화된 테이블을 발견했습니다. 테이블에 분산 키로 사용하기에 적합한 열이 없습니다. 데이터 엔지니어는
유지 관리 오버헤드를 최소화하면서 이러한 요구 사항을 충족하기 위해 어떤 배포 스타일을 사용해야 합니까?

답변 목록:
A. 모든 유통
B. 균등분배
C. 자동배포
D. 키 분배

정답: Suggested Answer:
C

==================================================

=== 문제 162 ===
문제: 한 소매 회사가 전 세계적으로 사업을 확장하고 있습니다. 회사는 재무 보고서의 환율을 정확하게 계산하기 위해 Amazon QuickSight를
사용해야 합니다. 회사에는 글로벌 통화 가치와 환율이 포함된 데이터 세트 분석을 기반으로 하는 시각적 개체가 포함된 기존 대시보드가
있습니다. 데이터 엔지니어는 환율이 소수점 이하 4자리까지 계산되도록 해야 합니다. 계산은 미리 계산되어야 합니다. 데이터 엔지니어는
QuickSight SPICE(초고속, 병렬, 인메모리 계산 엔진)에서 결과를 구체화해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 데이터세트에서 계산된 필드를 정의하고 만듭니다.
B. 분석에서 계산된 필드를 정의하고 만듭니다.
C. 시각적 개체에서 계산된 필드를 정의하고 만듭니다.
D. 대시보드에서 계산된 필드를 정의하고 만듭니다.

정답: Suggested Answer:
A

==================================================

=== 문제 163 ===
문제: 회사에는 3개의 자회사가 있습니다. 각 자회사는 서로 다른 데이터 웨어하우징 솔루션을 사용합니다. 첫 번째 자회사는 Amazon
Redshift에서 데이터 웨어하우스를 호스팅합니다. 두 번째 자회사는 AWS에서 Teradata Vantage를 사용합니다. 세 번째 자회사는
Google BigQuery를 사용합니다. 회사는 모든 데이터를 중앙 Amazon S3 데이터 레이크에 집계하려고 합니다. 회사는 Apache
Iceberg를 테이블 형식으로 사용하려고 합니다. 데이터 엔지니어는 모든 데이터 소스에 연결하고, 각 소스 엔진을 사용하여 변환을 실행하고,
데이터를 조인하고, 데이터를 Iceberg에 쓰기 위한 새로운 파이프라인을 구축해야 합니다. 최소한의 운영 노력으로 이러한 요구 사항을 충족할
수 있는 솔루션은 무엇입니까?

답변 목록:
A. 기본 Amazon Redshift, Teradata 및 BigQuery 커넥터를 사용하여 AWS Glue에서 파이프라인을 구축합니다. 기본
AWS Glue 변환을 사용하여 데이터를 조인합니다. 데이터 레이크 Iceberg 테이블에서 병합 작업을 실행합니다.
B. Amazon Redshift, Teradata 및 BigQuery용 Amazon Athena 통합 쿼리 커넥터를 사용하여 Athena에서
파이프라인을 구축합니다. 모든 데이터 원본에서 읽고, 데이터를 조인하고, 데이터 레이크 Iceberg 테이블에서 병합 작업을 실행하는 SQL
쿼리를 작성합니다.
C. 기본 Amazon Redshift 커넥터, Teradata용 JDBC(Java Database Connectivity) 커넥터 및 오픈
소스 Apache Spark BigQuery 커넥터를 사용하여 Amazon EMR에서 파이프라인을 구축합니다. 데이터를 결합하는 코드를
PySpark에 작성합니다. 데이터 레이크 Iceberg 테이블에서 병합 작업을 실행합니다.
D. Amazon Appflow의 기본 Amazon Redshift, Teradata 및 BigQuery 커넥터를 사용하여 Amazon S3 및
AWS Glue 데이터 카탈로그에 데이터를 씁니다. Amazon Athena를 사용하여 데이터를 조인합니다. 데이터 레이크 Iceberg
테이블에서 병합 작업을 실행합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 164 ===
문제: 한 회사에서 데이터 스트림 처리 애플리케이션을 구축하고 있습니다. 애플리케이션은 Amazon Elastic Kubernetes
Service(Amazon EKS) 클러스터에서 실행됩니다. 애플리케이션은 처리된 데이터를 Amazon DynamoDB 테이블에 저장합니다.
회사에서 DynamoDB 테이블에 안전하게 액세스하려면 EKS 클러스터의 애플리케이션 컨테이너가 필요합니다. 회사는 AWS 자격 증명을
컨테이너에 포함하는 것을 원하지 않습니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. Amazon S3 버킷에 AWS 자격 증명을 저장합니다. 자격 증명을 검색하려면 EKS 컨테이너에 S3 버킷에 대한 액세스 권한을
부여하세요.
B. IAM 역할을 EKS 작업자 노드에 연결하고 IAM 역할에 DynamoD에 대한 액세스 권한을 부여합니다. IAM 역할을 사용하여 IAM
역할 서비스 계정(IRSA) 기능을 설정합니다.
C. DynamoDB 테이블에 액세스하기 위한 액세스 키가 있는 IAM 사용자를 생성합니다. EKS 컨테이너의 환경 변수를 사용하여 IAM
사용자 액세스 키 데이터를 저장합니다.
D. DynamoDB 테이블에 액세스하기 위한 액세스 키가 있는 IAM 사용자를 생성합니다. EKS Duster 노드의 볼륨에 탑재된
Kubernetes 비밀을 사용하여 사용자 액세스 키 데이터를 저장합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 165 ===
문제: 데이터 엔지니어는 새로운 데이터 생산자를 AWS에 온보딩해야 합니다. 데이터 생산자는 데이터 제품을 AWS로 마이그레이션해야 합니다. 데이터
생산자는 비즈니스 애플리케이션을 지원하는 많은 데이터 파이프라인을 유지 관리합니다. 각 파이프라인에는 서비스 계정과 해당 사용자 인증 정보가
있어야 합니다. 데이터 엔지니어는 데이터 생산자의 온프레미스 데이터 센터에서 AWS로 보안 연결을 설정해야 합니다. 데이터 엔지니어는 온프레미스
데이터 센터에서 AWS로 데이터를 전송하기 위해 공용 인터넷을 사용해서는 안 됩니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 새로운 데이터 생산자에게 Amazon Elastic Container Service(Amazon ECS)에서 Amazon 머신
이미지(AMI)를 생성하여 애플리케이션의 코드 베이스를 저장하도록 지시합니다. 온프레미스 데이터 센터에 대한 연결만 허용하는 퍼블릭 서브넷에
보안 그룹을 생성합니다.
B. 온프레미스 데이터 센터에 대한 AWS Direct Connect 연결을 생성합니다. AWS Secrets Manager에 서비스 계정 자격
증명을 저장합니다.
C. 퍼블릭 서브넷에 보안 그룹을 생성합니다. 데이터 생산자에 해당하는 CIDR 블록의 연결만 허용하도록 보안 그룹을 구성합니다. 만료 날짜가
1일인 미리 서명된 URL을 포함하는 Amazon S3 버킷을 생성합니다.
D. 온프레미스 데이터 센터에 대한 AWS Direct Connect 연결을 생성합니다. AWS Secrets Manager에 애플리케이션 키를
저장합니다. 만료 날짜가 1일인 미리 서명된 URL이 포함된 Amazon S3 버킷을 생성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 166 ===
문제: 데이터 엔지니어는 Amazon S3 버킷에 저장된 데이터에 대해 AWS Glue 데이터 카탈로그를 구성했습니다. 데이터 엔지니어는 증분
업데이트를 수신하도록 Data Catalog를 구성해야 합니다. 데이터 엔지니어는 S3 버킷에 대한 이벤트 알림을 설정하고 Amazon
Simple Queue Service(Amazon SQS) 대기열을 생성하여 S3 이벤트를 수신합니다. 데이터 엔지니어는 최소한의 운영
오버헤드로 이러한 요구 사항을 충족하기 위해 어떤 단계 조합을 수행해야 합니까? (2개를 선택하세요.)

답변 목록:
A. SQS 대기열의 이벤트를 소비하는 S3 이벤트 기반 AWS Glue 크롤러를 생성합니다.
B. AWS Glue 크롤러를 실행하기 위한 시간 기반 일정을 정의하고 데이터 카탈로그에 대한 증분 업데이트를 수행합니다.
C. AWS Lambda 함수를 사용하여 SQS 대기열이 수신하는 S3 이벤트를 기반으로 데이터 카탈로그를 직접 업데이트합니다.
D. S3 버킷에 변경 사항이 있을 때 데이터 카탈로그 업데이트를 수행하도록 AWS Glue 크롤러를 수동으로 시작합니다.
E. AWS Step Functions를 사용하여 SQS 대기열이 수신하는 S3 이벤트를 기반으로 Data Catalog를 업데이트하는
프로세스를 조정합니다.

정답: Suggested Answer:
AB

==================================================

=== 문제 167 ===
문제: 한 회사는 AWS Glue 데이터 카탈로그를 사용하여 매일 Amazon S3 버킷에 업로드되는 데이터를 인덱싱합니다. 회사는 ETL(추출, 변환
및 로드) 파이프라인에서 일일 배치 프로세스를 사용하여 외부 소스의 데이터를 S3 버킷에 업로드합니다. 회사는 S3 데이터에 대한 일일 보고서를
실행합니다. 어떤 날에는 회사에서 모든 일일 데이터가 S3 버킷에 업로드되기 전에 보고서를 실행합니다. 데이터 엔지니어는 불완전한 데이터를
식별하는 메시지를 기존 Amazon Simple Notification Service(Amazon SNS) 주제로 보낼 수 있어야 합니다.
최소한의 운영 오버헤드로 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 일일 보고서에서 사용하는 소스 데이터세트에 대한 데이터 품질 검사를 만듭니다. 새로운 AWS 관리형 Apache Airflow 클러스터를
생성합니다. 열 데이터 유형 및 null 값 존재 여부에 대해 데이터 품질 쿼리를 실행하는 Airflow 작업을 사용하여 데이터 품질 검사를
실행합니다. 데이터 엔지니어에게 불완전한 데이터 세트에 대해 알리는 이메일 알림을 SNS 주제로 보내도록 Airflow 방향성 비순환
그래프(DAG)를 구성합니다.
B. 일일 보고서에서 사용하는 소스 데이터세트에 대한 데이터 품질 검사를 만듭니다. 새 Amazon EMR 클러스터를 생성합니다. Apache
Spark SQL을 사용하여 열 데이터 유형 및 null 값 존재 여부에 대해 데이터 품질 쿼리를 실행하는 EMR 클러스터에서 Apache
Spark 작업을 생성합니다. AWS Step Functions 워크플로를 사용하여 ETL 파이프라인을 조정합니다. 데이터 엔지니어에게 불완전한
데이터 세트에 대해 알리는 이메일 알림을 SNS 주제로 보내도록 워크플로를 구성합니다.
C. 일일 보고서에서 사용하는 소스 데이터세트에 대한 데이터 품질 검사를 만듭니다. 데이터 세트의 완전성과 일관성을 확인하기 위해 AWS
Glue 워크플로를 사용하여 데이터 품질 작업을 생성합니다. 데이터 세트가 불완전한 경우 Amazon EventBridge에서 이벤트를
생성하도록 데이터 품질 작업을 구성합니다. 데이터 엔지니어에게 불완전한 데이터 세트에 대해 알리는 이벤트를 Amazon SNS 주제로 보내도록
EventBridge를 구성합니다.
D. 열 데이터 유형 및 null 값 존재 여부에 대해 데이터 품질 쿼리를 실행하는 AWS Lambda 함수를 생성합니다. Lambda 함수를
실행하는 AWS Step Functions 워크플로를 사용하여 ETL 파이프라인을 조정합니다. 데이터 엔지니어에게 불완전한 데이터 세트에 대해
알리는 이메일 알림을 SNS 주제로 보내도록 Step Functions 워크플로를 구성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 168 ===
문제: 회사는 개인 식별 정보(PII)가 포함된 고객 데이터를 Amazon Redshift 클러스터에 저장합니다. 회사의 마케팅, 청구 및 분석 팀은
고객 데이터에 액세스할 수 있어야 합니다. 마케팅 팀은 난독화된 청구 정보에 액세스할 수 있어야 하지만 고객 연락처 정보에는 전체 액세스 권한이
있어야 합니다. 청구 팀은 팀이 처리하는 각 청구에 대한 고객 정보에 접근할 수 있어야 합니다. 분석팀은 난독화된 PII 데이터에만 액세스할 수
있어야 합니다. 최소한의 관리 오버헤드로 이러한 데이터 액세스 요구 사항을 적용하는 솔루션은 무엇입니까?

답변 목록:
A. 각 팀마다 별도의 Redshift 클러스터를 생성합니다. 각 팀에 꼭 필요한 데이터만 불러옵니다. 팀을 기준으로 클러스터에 대한 액세스를
제한합니다.
B. 각 데이터 요구 사항에 대한 필수 필드를 포함하는 보기를 만듭니다. 각 팀에 필요한 보기에만 팀 액세스 권한을 부여합니다.
C. 각 팀에 대해 별도의 Amazon Redshift 데이터베이스 역할을 생성합니다. 각 팀에 별도로 적용되는 마스킹 정책을 정의합니다. 각
팀 역할에 적절한 마스킹 정책을 연결합니다.
D. 고객 데이터를 Amazon S3 버킷으로 이동합니다. AWS Lake Formation을 사용하여 데이터 레이크를 생성합니다. 세분화된
보안 기능을 사용하여 각 팀에 데이터에 액세스할 수 있는 적절한 권한을 부여하세요.

정답: Suggested Answer:
C

==================================================

=== 문제 169 ===
문제: 한 금융회사는 최근 모바일 앱에 더 많은 기능을 추가했습니다. 새로운 기능을 사용하려면 회사에서 기존 Amazon Managed
Streaming for Apache Kafka(Amazon MSK) 클러스터에 새 주제를 생성해야 했습니다. 회사가 새 주제를 추가한 지 며칠
후 Amazon CloudWatch는 MSK 클러스터의 RootDiskUsed 지표에 대한 경보를 발생시켰습니다. 회사는 CloudWatch
경보를 어떻게 해결해야 합니까?

답변 목록:
A. MSK 브로커의 스토리지를 확장합니다. 자동으로 확장되도록 MSK 클러스터 스토리지를 구성합니다.
B. Apache ZooKeeper 노드의 스토리지를 확장합니다.
C. MSK 브로커 인스턴스를 더 큰 인스턴스 유형으로 업데이트합니다. MSK 클러스터를 다시 시작합니다.
D. 기존 주제에 대한 Target Volume-in-GiB 매개변수를 지정합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 170 ===
문제: 데이터 엔지니어는 회사의 Amazon S3 버킷과 Amazon RDS 데이터베이스를 기반으로 엔터프라이즈 데이터 카탈로그를 구축해야 합니다.
데이터 카탈로그에는 카탈로그의 데이터에 대한 저장 형식 메타데이터가 포함되어야 합니다. 최소한의 노력으로 이러한 요구 사항을 충족할 수 있는
솔루션은 무엇입니까?

답변 목록:
A. AWS Glue 크롤러를 사용하여 S3 버킷과 RDS 데이터베이스를 스캔하고 데이터 카탈로그를 구축합니다. 데이터 관리자를 사용하여
데이터를 검사하고 데이터 형식으로 데이터 카탈로그를 업데이트합니다.
B. AWS Glue 크롤러를 사용하여 데이터 카탈로그를 구축합니다. AWS Glue 크롤러 분류자를 사용하여 데이터 형식을 인식하고 해당
형식을 카탈로그에 저장합니다.
C. Amazon Macie를 사용하여 데이터 카탈로그를 구축하고 민감한 데이터 요소를 식별하십시오. Macie에서 데이터 형식 정보를
수집합니다.
D. 스크립트를 사용하여 데이터 요소를 검색하고 데이터 형식에 따라 데이터 분류를 할당합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 171 ===
문제: 한 회사는 매 분기마다 데이터 레이크의 데이터를 분석하여 재고 평가를 수행합니다. 데이터 엔지니어는 AWS Glue DataBrew를 사용하여
데이터 내에서 고객에 대한 개인 식별 정보(PII)를 탐지합니다. 회사의 개인정보 보호정책에서는 일부 사용자 정의 정보 카테고리를 PII로
간주합니다. 그러나 범주는 표준 DataBrew 데이터 품질 규칙에 포함되지 않습니다. 데이터 엔지니어는 데이터 레이크 내의 여러 데이터
세트에서 사용자 정의 PII 카테고리를 검색하기 위해 현재 프로세스를 수정해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는
솔루션은 무엇입니까?

답변 목록:
A. 사용자 정의 PII 카테고리에 대한 데이터를 수동으로 검토하세요.
B. DataBrew에서 맞춤형 데이터 품질 규칙을 구현합니다. 데이터세트 전체에 맞춤 규칙을 적용합니다.
C. 사용자 정의 PII 카테고리를 탐지하기 위한 사용자 정의 Python 스크립트를 개발합니다. DataBrew에서 스크립트를 호출합니다.
D. 추출 변환 중에 필드에서 PII 정보를 추출하고(ETL) 작업을 데이터 레이크에 로드하는 정규식 패턴을 구현합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 172 ===
문제: 회사는 매일 파트너로부터 Amazon S3 버킷으로 데이터 파일을 받습니다. 이 회사는 매일 AWS Glue ETL(추출, 변환 및 로드)
파이프라인을 사용하여 각 데이터 파일을 정리하고 변환합니다. ETL 파이프라인의 출력은 두 번째 S3 버킷에 있는 Daily.csv라는 CSV
파일에 기록됩니다. 가끔 일일 데이터 파일이 비어 있거나 필수 필드 값이 누락되는 경우가 있습니다. 파일에 데이터가 누락된 경우 회사에서는
전날의 CSV 파일을 사용할 수 있습니다. 데이터 엔지니어는 새 일일 파일이 완전하고 유효한 경우에만 전날의 데이터 파일을 덮어쓰도록 해야
합니다. 최소한의 노력으로 이러한 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. AWS Lambda 함수를 호출하여 파일에 누락된 데이터가 있는지 확인하고 필수 필드에 누락된 값을 채웁니다.
B. AWS Glue 데이터 품질 규칙을 사용하도록 AWS Glue ETL 파이프라인을 구성합니다. DQDL(데이터 품질 정의 언어)로 규칙을
개발하여 필수 필드와 빈 파일에 누락된 값이 있는지 확인하세요.
C. AWS Glue Studio를 사용하여 ETL 파이프라인의 코드를 변경하여 필수 필드의 누락된 값을 각 필드의 가장 일반적인 값으로
채웁니다.
D. Amazon Athena에서 SQL 쿼리를 실행하여 CSV 파일을 읽고 누락된 행을 삭제합니다. 수정된 CSV 파일을 두 번째 S3 버킷에
복사합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 173 ===
문제: 마케팅 회사는 Amazon S3를 사용하여 마케팅 데이터를 저장합니다. 회사는 일부 버킷에서 버전 관리를 사용합니다. 회사는 데이터를 읽고
버킷에 로드하기 위해 여러 작업을 실행합니다. 스토리지 비용 최적화를 돕기 위해 회사는 S3 버킷에 있는 불완전한 멀티파트 업로드 및 오래된
버전에 대한 정보를 수집하려고 합니다. 최소한의 운영 노력으로 이러한 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. AWS CLI를 사용하여 정보를 수집합니다.
B. Amazon S3 인벤토리 구성 보고서를 사용하여 정보를 수집합니다.
C. 정보를 수집하려면 Amazon S3 Storage Lens 대시보드를 사용하십시오.
D. 정보를 수집하려면 Amazon S3에 대한 AWS 사용 보고서를 사용하십시오.

정답: Suggested Answer:
C

==================================================

=== 문제 174 ===
문제: 한 게임 회사는 Amazon Kinesis Data Streams를 사용하여 클릭스트림 데이터를 수집합니다. 이 회사는 Amazon Data
Firehose 전송 스트림을 사용하여 데이터를 Amazon S3에 JSON 형식으로 저장합니다. 회사의 데이터 과학자는 Amazon
Athena를 사용하여 최신 데이터를 쿼리하여 비즈니스 통찰력을 얻습니다. 회사는 Athena 비용을 줄이고 싶지만 데이터 파이프라인을 다시
만들고 싶지는 않습니다. 최소한의 관리 노력으로 이러한 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. Firehose 출력 형식을 Apache Parquet로 변경합니다. 사용자 지정 S3 객체 YYYYMMDD 접두사 표현식을 제공하고 큰
버퍼 크기를 지정합니다. 기존 데이터의 경우 AWS Glue ETL(추출, 변환 및 로드) 작업을 생성합니다. 작은 JSON 파일을 결합하고,
JSON 파일을 큰 Parquet 파일로 변환하고, YYYYMMDD 접두사를 추가하도록 ETL 작업을 구성합니다. ALTER TABLE ADD
PARTITION 문을 사용하여 기존 Athena 테이블에 파티션을 반영합니다.
B. JSON 파일을 결합하고 JSON 파일을 Apache Parquet 파일로 변환하는 Apache Spark 작업을 생성합니다. 매일
Amazon EMR 임시 클러스터를 시작하여 Spark 작업을 실행하여 다른 S3 위치에 새 Parquet 파일을 생성합니다. ALTER
TABLE SET LOCATION 문을 사용하여 기존 Athena 테이블에 새 S3 위치를 반영합니다.
C. Firehose의 전송 대상으로 Kinesis 데이터 스트림을 생성합니다. Apache Flink용 Amazon Managed
Service(이전의 Amazon Kinesis Data Analytics)를 사용하여 Kinesis 데이터 스트림에서 Apache Flink를
실행하십시오. Flink를 사용하여 데이터를 집계하고 사용자 지정 S3 객체 YYYYMMDD 접두사가 있는 Apache Parquet 형식으로
Amazon S3에 데이터를 저장합니다. ALTER TABLE ADD PARTITION 문을 사용하여 기존 Athena 테이블에 파티션을
반영합니다.
D. AWS Lambda 함수를 Firehose와 통합하여 소스 레코드를 Apache Parquet로 변환하고 Amazon S3에 씁니다.
동시에 AWS Glue ETL(추출, 변환 및 로드) 작업을 실행하여 JSON 파일을 결합하고 JSON 파일을 대형 Parquet 파일로
변환합니다. 사용자 지정 S3 객체 YYYYMMDD 접두사를 생성합니다. ALTER TABLE ADD PARTITION 문을 사용하여 기존
Athena 테이블에 파티션을 반영합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 175 ===
문제: 회사에는 기존 Amazon DynamoDB 테이블의 비용을 관리하기 위한 솔루션이 필요합니다. 회사에서는 테이블 크기도 조절해야 합니다.
솔루션은 진행 중인 읽기 또는 쓰기 작업을 방해해서는 안 됩니다. 회사에서는 1개월 후에 테이블의 데이터를 자동으로 삭제하는 솔루션을 사용하려고
합니다. 최소한의 지속적인 유지 관리로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. DynamoDB TTL 기능을 사용하면 타임스탬프를 기준으로 데이터가 자동으로 만료됩니다.
B. 1개월보다 오래된 데이터를 확인하기 위해 AWS Lambda 함수를 호출하도록 예약된 Amazon EventBridge 규칙을 구성합니다.
오래된 데이터를 삭제하도록 Lambda 함수를 구성합니다.
C. AWS Lambda 함수를 호출하도록 DynamoDB 테이블에 스트림을 구성합니다. 테이블에서 1개월이 지난 데이터를 삭제하도록
Lambda 함수를 구성합니다.
D. AWS Lambda 함수를 사용하여 DynamoDB 테이블에서 1개월보다 오래된 데이터를 주기적으로 검색합니다. 오래된 데이터를 삭제하도록
Lambda 함수를 구성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 176 ===
문제: 회사는 Amazon S3를 사용하여 데이터를 저장하고 Amazon QuickSight를 사용하여 시각화를 생성합니다. 이 회사는 Hub-
Account라는 AWS 계정에 S3 버킷을 가지고 있습니다. S3 버킷은 AWS Key Management Service(AWS KMS) 키로
암호화됩니다. 회사의 QuickSight 인스턴스는 BI-Account라는 별도의 계정에 있습니다. 회사는 S3 버킷 정책을 업데이트하여
QuickSight 서비스 역할에 대한 액세스 권한을 부여합니다. 회사는 QuickSight가 S3 버킷과 상호 작용할 수 있도록 교차 계정
액세스를 활성화하려고 합니다. 이 요구 사항을 충족하는 단계 조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. 기존 AWS KMS 키를 사용하여 QuickSight에서 S3 버킷으로의 연결을 암호화합니다.
B. QuickSight 서비스 역할이 액세스할 수 있는 리소스로 S3 버킷을 추가합니다.
C. AWS Resource Access Manager(AWS RAM)를 사용하여 S3 버킷을 BI-Account 계정과 공유합니다.
D. QuickSight 서비스 역할에 IAM 정책을 추가하여 S3 버킷을 암호화하는 KMS 키에 대한 QuickSight 액세스 권한을
부여합니다.
E. QuickSight 서비스 역할이 액세스할 수 있는 리소스로 KMS 키를 추가합니다.

정답: Suggested Answer:
E

==================================================

=== 문제 177 ===
문제: 자동차 판매 회사는 특정 지역에서 판매 목록에 있는 자동차에 대한 데이터를 유지 관리합니다. 이 회사는 매일 데이터를 압축 파일로 Amazon
S3에 업로드하는 공급업체로부터 새 자동차 목록에 대한 데이터를 받습니다. 압축 파일의 크기는 최대 5KB입니다. 회사는 데이터가 Amazon
S3에 업로드되는 즉시 최신 목록을 확인하려고 합니다. 데이터 엔지니어는 대시보드에 피드를 제공하기 위해 목록의 데이터 처리 워크플로를
자동화하고 조정해야 합니다. 데이터 엔지니어는 일회성 쿼리와 분석 보고를 수행하는 기능도 제공해야 합니다. 쿼리 솔루션은 확장 가능해야 합니다.
이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon EMR 클러스터를 사용하여 수신 데이터를 처리합니다. AWS Step Functions를 사용하여 워크플로를 조정합니다.
일회성 쿼리 및 분석 보고를 위해 Apache Hive를 사용하세요. Amazon OpenSearch Service를 사용하여 데이터를 컴퓨팅
최적화 인스턴스로 대량 수집합니다. 대시보드용 OpenSearch Service에서 OpenSearch 대시보드를 사용합니다.
B. 프로비저닝된 Amazon EMR 클러스터를 사용하여 수신 데이터를 처리합니다. AWS Step Functions를 사용하여 워크플로를
조정합니다. 일회성 쿼리 및 분석 보고에 Amazon Athena를 사용하십시오. 대시보드에는 Amazon QuickSight를 사용하십시오.
C. AWS Glue를 사용하여 수신 데이터를 처리합니다. AWS Step Functions를 사용하여 워크플로를 조정합니다. 일회성 쿼리 및
분석 보고에 Amazon Redshift Spectrum을 사용하십시오. 대시보드에는 Amazon OpenSearch Service의
OpenSearch 대시보드를 사용합니다.
D. AWS Glue를 사용하여 수신 데이터를 처리합니다. AWS Lambda 및 S3 이벤트 알림을 사용하여 워크플로를 조정합니다. 일회성
쿼리 및 분석 보고에 Amazon Athena를 사용하십시오. 대시보드에는 Amazon QuickSight를 사용하십시오.

정답: Suggested Answer:
D

==================================================

=== 문제 178 ===
문제: 회사는 여러 AWS 리전에 AWS 리소스를 보유하고 있습니다. 회사는 회사가 운영되는 각 지역에 Amazon EFS 파일 시스템을 보유하고
있습니다. 회사의 데이터 과학 팀은 단일 지역 내에서만 운영됩니다. 데이터 과학 팀이 작업하는 데이터는 팀의 리전 내에 유지되어야 합니다.
데이터 엔지니어는 회사의 각 지역 EFS 파일 시스템에 있는 파일을 처리하여 단일 데이터 세트를 생성해야 합니다. 데이터 엔지니어는 AWS
Step Functions 상태 시스템을 사용하여 AWS Lambda 함수를 조정하여 데이터를 처리하려고 합니다. 최소한의 노력으로 이러한 요구
사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. 각 지역의 EFS 파일 시스템을 호스팅하는 VPC를 데이터 과학 팀의 지역에 있는 VPC와 피어링합니다. EFS 파일 잠금을 활성화합니다.
각 지역별 파일 시스템을 탑재하도록 데이터 과학 팀의 지역에서 Lambda 함수를 구성합니다. Lambda 함수를 사용하여 데이터를 처리합니다.
B. 데이터 과학 팀의 리전에 데이터를 복제하도록 각 지역 EFS 파일 시스템을 구성합니다. 데이터 과학 팀의 리전에서 복제본 파일 시스템을
탑재하도록 Lambda 함수를 구성합니다. Lambda 함수를 사용하여 데이터를 처리합니다.
C. 각 리전에 Lambda 함수를 배포합니다. 지역 EFS 파일 시스템을 Lambda 함수에 탑재합니다. Lambda 함수를 사용하여 데이터를
처리합니다. 데이터 과학 팀 리전의 Amazon S3 버킷에 출력을 저장합니다.
D. AWS DataSync를 사용하여 각 지역 EFS 파일 시스템에서 데이터 과학 팀의 지역에 있는 파일 시스템으로 파일을 전송합니다. 동일한
지역에 있는 파일 시스템을 탑재하도록 데이터 과학 팀의 지역에서 Lambda 함수를 구성합니다. Lambda 함수를 사용하여 데이터를
처리합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 179 ===
문제: 회사는 Amazon EC2 인스턴스에서 애플리케이션을 호스팅합니다. 회사는 고객이 관리하는 AWS 인프라와 안전하게 통신하기 위해 전송 중인
데이터를 암호화하는 SSL/TLS 연결을 사용해야 합니다. 데이터 엔지니어는 디지털 인증서의 생성, 배포, 순환을 단순화하는 솔루션을 구현해야
합니다. 솔루션은 SSL/TLS 인증서를 자동으로 갱신하고 배포해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은
무엇입니까?

답변 목록:
A. EC2 인스턴스에 자체 관리형 인증서를 저장합니다.
B. AWS 인증서 관리자(ACM)를 사용합니다.
C. AWS Secrets Manager에서 사용자 지정 자동화 스크립트를 구현합니다.
D. Amazon Elastic Container Service(Amazon ECS) 서비스 연결을 사용하십시오.

정답: Suggested Answer:
B

==================================================

=== 문제 180 ===
문제: 회사는 고객 데이터를 Amazon S3 버킷에 저장합니다. 회사는 AWS KMS 키(SSE-KMS)를 사용한 서버 측 암호화를 사용하여 버킷을
암호화합니다. 데이터 세트에는 주민등록번호, 계정 세부정보 등 개인 식별 정보(PII)가 포함되어 있습니다. PII로 태그가 지정된 데이터는
회사가 분석을 위해 고객 데이터를 사용하기 전에 마스킹되어야 합니다. 일부 사용자는 사전 처리 단계에서 PII 데이터에 안전하게 액세스할 수
있어야 합니다. 이 회사는 전체 엔지니어링 파이프라인에서 PII 데이터를 마스킹하고 보호하기 위해 유지 관리가 덜 필요한 솔루션이 필요합니다.
이러한 요구 사항을 충족하는 솔루션 조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. AWS Glue DataBrew를 사용하여 분석 전에 PII 데이터를 마스킹하는 추출, 변환 및 로드(ETL) 작업을 수행합니다.
B. Amazon GuardDuty를 사용하여 엔지니어링 파이프라인에 사용되는 PII 데이터에 대한 액세스 패턴을 모니터링합니다.
C. S3 버킷에 대한 Amazon Macie 검색 작업을 구성합니다.
D. AWS Identity and Access Management(IAM)를 사용하여 권한을 관리하고 PII 데이터에 대한 액세스를
제어합니다.
E. PII 데이터를 마스킹하고 액세스를 제어하려면 애플리케이션에 사용자 정의 스크립트를 작성하십시오.

정답: Suggested Answer:
AD

==================================================

=== 문제 181 ===
문제: 데이터 엔지니어가 Amazon EMR 클러스터를 시작하고 있습니다. 데이터 엔지니어가 새 클러스터에 로드해야 하는 데이터는 현재 Amazon
S3 버킷에 있습니다. 데이터 엔지니어는 저장된 데이터와 전송 중인 데이터가 모두 암호화되었는지 확인해야 합니다. S3 버킷에 있는 데이터는
AWS Key Management Service(AWS KMS) 키로 암호화됩니다. 데이터 엔지니어에게는 PEM(Privacy Enhanced
Mail) 파일이 있는 Amazon S3 경로가 있습니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. Amazon EMR 보안 구성을 생성합니다. S3 버킷의 미사용 암호화에 적합한 AWS KMS 키를 지정합니다. 두 번째 보안 구성을
만듭니다. 전송 중 암호화를 위한 PEM 파일의 Amazon S3 경로를 지정합니다. EMR 클러스터를 생성하고 두 보안 구성을 모두 클러스터에
연결합니다.
B. Amazon EMR 보안 구성을 생성합니다. S3 버킷의 로컬 디스크 암호화에 적합한 AWS KMS 키를 지정합니다. 전송 중 암호화를
위한 PEM 파일의 Amazon S3 경로를 지정합니다. EMR 클러스터 생성 중에 보안 구성을 사용합니다.
C. Amazon EMR 보안 구성을 생성합니다. S3 버킷의 미사용 암호화에 적합한 AWS KMS 키를 지정합니다. 전송 중 암호화를 위한
PEM 파일의 Amazon S3 경로를 지정합니다. EMR 클러스터 생성 중에 보안 구성을 사용합니다.
D. Amazon EMR 보안 구성을 생성합니다. S3 버킷의 미사용 암호화에 적합한 AWS KMS 키를 지정합니다. 전송 중 암호화를 위한
PEM 파일의 Amazon S3 경로를 지정합니다. EMR 클러스터를 생성하고 보안 구성을 클러스터에 연결합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 182 ===
문제: 한 소매 회사는 실시간 재고 관리를 지원하기 위해 Amazon Redshift 클러스터를 사용하고 있습니다. 이 회사는 Amazon
SageMaker의 실시간 엔드포인트에 ML 모델을 배포했습니다. 회사는 실시간 재고 추천을 원합니다. 또한 회사는 미래의 재고 요구 사항을
예측하려고 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까? (2개를 선택하세요.)

답변 목록:
A. Amazon Redshift ML을 사용하여 인벤토리 권장 사항을 생성합니다.
B. SQL을 사용하여 예측을 위해 원격 SageMaker 엔드포인트를 호출합니다.
C. Amazon Redshift ML을 사용하여 오프라인 모델 교육을 위한 정기적인 데이터 내보내기를 예약합니다.
D. SageMaker Autopilot을 사용하여 Amazon Redshift에서 재고 관리 대시보드를 생성하십시오.
E. Amazon Redshift를 파일 스토리지 시스템으로 사용하여 오래된 재고 관리 보고서를 보관하십시오.

정답: Suggested Answer:
AB

==================================================

=== 문제 183 ===
문제: 회사는 Amazon S3 버킷에 CSV 파일을 저장합니다. 데이터 엔지니어는 CSV 파일의 데이터를 처리하고 처리된 데이터를 새 S3 버킷에
저장해야 합니다. 프로세스에서는 열 이름을 바꾸고, 특정 열을 제거하고, 각 파일의 두 번째 행을 무시하고, 데이터의 첫 번째 행 값을 기반으로
새 열을 만들고, 열의 숫자 값으로 결과를 필터링해야 합니다. 최소한의 개발 노력으로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue Python 작업을 사용하여 CSV 파일을 읽고 변환합니다.
B. AWS Glue 사용자 지정 크롤러를 사용하여 CSV 파일을 읽고 변환합니다.
C. AWS Glue 워크플로를 사용하여 CSV 파일을 크롤링하고 변환하는 작업 세트를 구축합니다.
D. AWS Glue DataBrew 레시피를 사용하여 CSV 파일을 읽고 변환합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 184 ===
문제: 회사에서는 Amazon Redshift를 데이터 웨어하우스로 사용합니다. 데이터 인코딩은 데이터 웨어하우스의 기존 테이블에 적용됩니다. 데이터
엔지니어는 일부 테이블에 적용된 압축 인코딩이 데이터에 가장 적합하지 않다는 사실을 발견했습니다. 데이터 엔지니어는 최적이 아닌 인코딩이 있는
테이블의 데이터 인코딩을 개선해야 합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 식별된 테이블에 대해 ANALYZE 명령을 실행합니다. 명령 출력을 기반으로 열의 압축 인코딩을 수동으로 업데이트합니다.
B. 식별된 테이블에 대해 ANALYZE COMPRESSION 명령을 실행합니다. 명령 출력을 기반으로 열의 압축 인코딩을 수동으로
업데이트합니다.
C. 식별된 테이블에 대해 VACUUM REINDEX 명령을 실행합니다.
D. 식별된 테이블에 대해 VACUUM RECLUSTER 명령을 실행합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 185 ===
문제: 회사는 Amazon S3에 대량의 고객 기록을 저장합니다. 규정을 준수하려면 회사는 기록이 생성된 후 처음 30일 동안 새 고객 기록에 즉시
액세스할 수 있어야 합니다. 회사는 30일보다 오래된 기록에 자주 액세스하지 않습니다. 회사는 Amazon S3 스토리지를 비용 최적화해야
합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 30일 후에 레코드를 S3 Standard Infrequent-IA(S3 Standard-IA) 스토리지로 전환하려면 수명 주기 정책을
적용합니다.
B. S3 Intelligent-Tiering 스토리지를 사용하세요.
C. 30일 후에 레코드를 S3 Glacier Deep Archive 스토리지로 전환합니다.
D. 모든 고객 기록에는 S3 Standard-Infrequent Access(S3 Standard-IA) 스토리지를 사용하십시오.

정답: Suggested Answer:
A

==================================================

=== 문제 186 ===
문제: 데이터 엔지니어는 Amazon QuickSight를 사용하여 여러 AWS 지역에서 회사의 수익을 보고하는 대시보드를 구축하고 있습니다. 데이터
엔지니어는 시각적 개체에 표시된 드릴다운 수준에 관계없이 대시보드에 지역의 총 수익이 표시되기를 원합니다. 어떤 솔루션이 이러한 요구 사항을
충족합니까?

답변 목록:
A. 테이블 계산을 만듭니다.
B. 간단한 계산된 필드를 만듭니다.
C. 수준 인식 계산 - 집계(LAC-A) 함수를 만듭니다.
D. 레벨 인식 계산 - 창(LAC-W) 함수를 만듭니다.

정답: Suggested Answer:
C

==================================================

=== 문제 187 ===
문제: 소매 회사는 Amazon S3 버킷에 고객 데이터를 저장합니다. 일부 고객 데이터에는 고객에 대한 개인 식별 정보(PII)가 포함되어 있습니다.
회사는 PII 데이터를 비즈니스 파트너와 공유해서는 안 됩니다. 데이터 엔지니어는 데이터 세트의 개체를 비즈니스 파트너에게 제공하기 전에 데이터
세트에 PII가 포함되어 있는지 확인해야 합니다. 최소한의 수동 개입으로 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Macie에 대한 액세스를 허용하도록 S3 버킷과 S3 객체를 구성합니다. Macie에서 자동화된 민감한 데이터 검색을
사용하세요.
B. S3 PUT 작업을 모니터링하도록 AWS CloudTrail을 구성합니다. CloudTrail 추적을 검사하여 PII를 저장하는 작업을
식별합니다.
C. S3 객체에서 PII를 식별하는 AWS Lambda 함수를 생성합니다. 주기적으로 실행되도록 기능을 예약합니다.
D. AWS Glue 데이터 카탈로그에 테이블을 생성합니다. 테이블에서 PII를 식별하려면 사용자 정의 SQL 쿼리를 작성하세요. Amazon
Athena를 사용하여 쿼리를 실행합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 188 ===
문제: 데이터 엔지니어는 데이터 처리 작업을 수행하기 위해 Amazon Athena에서 기존 테이블의 빈 복사본을 생성해야 합니다. Athena의 기존
테이블에는 1,000개의 행이 포함되어 있습니다. 이 요구 사항을 충족하는 쿼리는 무엇입니까?

답변 목록:
A. CREATE TABLE new_table - LIKE old_table;
B. CREATE TABLE new_table - AS SELECT * FROM old_table - 데이터 없음;
C. CREATE TABLE new_table - AS SELECT * FROM old_table;
D. CREATE TABLE new_table - SELECT * FROM old_cable - WHERE 1=1;

정답: Suggested Answer:
B

==================================================

=== 문제 189 ===
문제: 한 회사가 Amazon S3에 데이터 레이크를 가지고 있습니다. 회사는 여러 애플리케이션에 대한 AWS CloudTrail 로그를 수집합니다.
회사는 로그를 데이터 레이크에 저장하고, AWS Glue에 로그를 분류하고, 연도를 기준으로 로그를 분할합니다. 회사는 Amazon
Athena를 사용하여 로그를 분석합니다. 최근 고객은 Athena 테이블 중 하나에 대한 쿼리가 데이터를 반환하지 않았다고 보고했습니다.
데이터 엔지니어가 문제를 해결해야 합니다. 데이터 엔지니어는 어떤 문제 해결 단계 조합을 수행해야 합니까? (2개를 선택하세요.)

답변 목록:
A. Athena가 올바른 Amazon S3 위치를 가리키고 있는지 확인합니다.
B. 쿼리 시간 초과 기간을 늘립니다.
C. MSCK REPAIR TABLE 명령을 사용합니다.
D. 아테나를 다시 시작하세요.
E. 문제가 있는 Athena 테이블을 삭제하고 다시 생성합니다.

정답: Suggested Answer:
AC

==================================================

=== 문제 190 ===
문제: 데이터 엔지니어는 AWS에서 실행되는 ETL(추출, 변환 및 로드) 작업 세트를 조정하려고 합니다. ETL 작업에는 Amazon EMR에서
Apache Spark 작업을 실행하고, Salesforce에 API를 호출하고, Amazon Redshift에 데이터를 로드해야 하는 작업이
포함되어 있습니다. ETL 작업은 실패 및 재시도를 자동으로 처리해야 합니다. 데이터 엔지니어는 Python을 사용하여 작업을 조정해야 합니다.
어떤 서비스가 이러한 요구 사항을 충족합니까?

답변 목록:
A. Apache Airflow용 Amazon 관리형 워크플로(Amazon MWAA)
B. AWS 단계 함수
C. AWS 글루
D. 아마존 이벤트브리지

정답: Suggested Answer:
A

==================================================

=== 문제 191 ===
문제: 데이터 엔지니어는 많은 AWS Lambda 함수가 사용하는 데이터 형식 지정 프로세스를 수행하는 사용자 지정 Python 스크립트를 유지
관리합니다. 데이터 엔지니어가 Python 스크립트를 수정해야 하는 경우 데이터 엔지니어는 모든 Lambda 함수를 수동으로 업데이트해야
합니다. 데이터 엔지니어는 Lambda 함수를 업데이트하는 데 덜 수동적인 방법이 필요합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 사용자 지정 Python 스크립트를 공유 Amazon S3 버킷에 저장합니다. 실행 컨텍스트 개체에 사용자 정의 스크립트에 대한 포인터를
저장합니다.
B. 사용자 지정 Python 스크립트를 Lambda 계층으로 패키징합니다. Lambda 계층을 Lambda 함수에 적용합니다.
C. 사용자 지정 Python 스크립트를 공유 Amazon S3 버킷에 저장합니다. 환경 변수에 고객 스크립트에 대한 포인터를 저장합니다.
D. 각 Lambda 함수에 동일한 별칭을 할당합니다. 함수의 별칭을 지정하여 각 Lambda 함수를 호출합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 192 ===
문제: 회사는 Amazon S3 버킷에 고객 데이터를 저장합니다. 회사의 여러 팀이 다운스트림 분석을 위해 고객 데이터를 사용하려고 합니다. 회사는
팀이 고객에 대한 개인 식별 정보(PII)에 액세스할 수 없도록 해야 합니다. 최소한의 운영 오버헤드로 이 요구 사항을 충족하는 솔루션은
무엇입니까?

답변 목록:
A. Amazon Macie를 사용하여 민감한 데이터 검색 작업을 생성 및 실행하여 PII를 탐지하고 제거합니다.
B. S3 객체 Lambda를 사용하여 데이터에 액세스하고 Amazon Comprehend를 사용하여 PII를 감지하고 제거합니다.
C. Amazon Data Firehose 및 Amazon Comprehend를 사용하여 PII를 탐지하고 제거합니다.
D. AWS Glue DataBrew 작업을 사용하여 두 번째 S3 버킷에 PII 데이터를 저장합니다. 원래 S3 버킷에 남아 있는 데이터에
대한 분석을 수행합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 193 ===
문제: 회사는 처리된 데이터를 S3 버킷에 저장합니다. 회사는 엄격한 데이터 접근 정책을 가지고 있습니다. 회사는 IAM 역할을 사용하여 회사 내 팀에
S3 버킷에 대한 다양한 수준의 액세스 권한을 부여합니다. 회사는 사용자가 데이터 접근 정책을 위반할 때 알림을 받기를 원합니다. 각 알림에는
정책을 위반한 사용자의 사용자 이름이 포함되어야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. AWS Config 규칙을 사용하여 데이터 액세스 정책 위반을 감지합니다. 규정 준수 경보를 설정합니다.
B. Amazon CloudWatch 지표를 사용하여 객체 수준 지표를 수집합니다. CloudWatch 경보를 설정합니다.
C. AWS CloudTrail을 사용하여 S3 버킷에 대한 객체 수준 이벤트를 추적합니다. CloudWatch 경보를 설정하려면 이벤트를
Amazon CloudWatch로 전달하세요.
D. Amazon S3 서버 액세스 로그를 사용하여 버킷에 대한 액세스를 모니터링합니다. 액세스 로그를 Amazon CloudWatch 로그
그룹으로 전달합니다. CloudWatch 경보를 설정하려면 로그 그룹의 지표 필터를 사용하십시오.

정답: Suggested Answer:
C

==================================================

=== 문제 194 ===
문제: 회사는 타사에서 제공하는 고객 데이터를 Amazon Redshift 데이터 웨어하우스로 로드해야 합니다. 회사는 주문 데이터와 제품 데이터를
동일한 데이터 웨어하우스에 저장합니다. 회사는 결합된 데이터세트를 사용하여 잠재적인 신규 고객을 식별하려고 합니다. 데이터 엔지니어는 원본
데이터의 필드 중 하나에 JSON 형식의 값이 포함되어 있음을 확인했습니다. 데이터 엔지니어는 어떻게 최소한의 노력으로 JSON 데이터를 데이터
웨어하우스에 로드해야 할까요?

답변 목록:
A. SUPER 데이터 유형을 사용하여 Amazon Redshift 테이블에 데이터를 저장합니다.
B. AWS Glue를 사용하여 JSON 데이터를 평면화하고 Amazon Redshift 테이블에 수집합니다.
C. Amazon S3를 사용하여 JSON 데이터를 저장합니다. Amazon Athena를 사용하여 데이터를 쿼리합니다.
D. AWS Lambda 함수를 사용하여 JSON 데이터를 평면화합니다. Amazon S3에 데이터를 저장합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 195 ===
문제: 회사는 회사가 MySQL 데이터베이스에 저장하는 판매 기록을 분석하려고 합니다. 회사는 Salesforce에서 식별한 판매 기회와 기록을
연관시키려고 합니다. 회사는 매일 2GB의 판매 기록을 받습니다. 회사에는 100GB의 확인된 판매 기회가 있습니다. 데이터 엔지니어는 판매
기록과 판매 기회를 분석하고 상호 연관시키는 프로세스를 개발해야 합니다. 이 프로세스는 매일 밤 한 번씩 실행되어야 합니다. 최소한의 운영
오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Apache Airflow용 Amazon Managed Workflows(Amazon MWAA)를 사용하여 두 데이터 세트를 모두
가져옵니다. AWS Lambda 함수를 사용하여 데이터세트를 상호 연결합니다. AWS Step Functions를 사용하여 프로세스를
조정합니다.
B. Amazon AppFlow를 사용하여 Salesforce에서 판매 기회를 가져옵니다. AWS Glue를 사용하여 MySQL 데이터베이스에서
판매 기록을 가져옵니다. 판매 기록을 판매 기회와 연관시키십시오. Apache Airflow용 Amazon Managed
Workflows(Amazon MWAA)를 사용하여 프로세스를 조정합니다.
C. Amazon AppFlow를 사용하여 Salesforce에서 판매 기회를 가져옵니다. AWS Glue를 사용하여 MySQL 데이터베이스에서
판매 기록을 가져옵니다. 판매 기록을 판매 기회와 연관시키십시오. AWS Step Functions를 사용하여 프로세스를 조정합니다.
D. Amazon AppFlow를 사용하여 Salesforce에서 판매 기회를 가져옵니다. Amazon Kinesis Data Streams를
사용하여 MySQL 데이터베이스에서 판매 기록을 가져옵니다. Apache Flink용 Amazon Managed Service를 사용하여 데이터
세트의 상관 관계를 지정합니다. AWS Step Functions를 사용하여 프로세스를 조정합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 196 ===
문제: 회사는 Amazon S3 버킷에 서버 로그를 저장합니다. 회사는 해당 로그를 1년간 보관해야 합니다. 1년 이후에는 로그가 필요하지 않습니다.
데이터 엔지니어에게는 1년이 넘은 로그를 자동으로 삭제하는 솔루션이 필요합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은
무엇입니까?

답변 목록:
A. 1년 후에 로그를 삭제하도록 S3 수명 주기 구성을 정의합니다.
B. 1년 후에 로그를 삭제하는 AWS Lambda 함수를 생성합니다.
C. 1년 후에 로그를 삭제하도록 Amazon EC2 인스턴스에서 cron 작업을 예약합니다.
D. 1년 후에 로그를 삭제하도록 AWS Step Functions 상태 머신을 구성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 197 ===
문제: 한 회사는 여러 단계가 포함된 AWS Step Functions에서 서버리스 데이터 처리 워크플로를 설계하고 있습니다. 처리 워크플로는 외부
API에서 데이터를 수집하고, 여러 AWS Lambda 함수를 사용하여 데이터를 변환하고, 변환된 데이터를 Amazon DynamoDB에
로드합니다. 회사는 들어오는 데이터의 내용에 따라 특정 단계를 수행하는 워크플로가 필요합니다. 이 요구 사항을 충족하려면 회사에서 어떤 Step
Functions 상태 유형을 사용해야 합니까?

답변 목록:
A. 평행한
B. 선택
C. 일
D. 지도

정답: Suggested Answer:
B

==================================================

=== 문제 198 ===
문제: 데이터 엔지니어는 AWS CloudTrail 로그를 쿼리하고 감사용 데이터를 준비하기 위해 Amazon Athena에
cloudtrail_logs라는 테이블을 생성했습니다. 데이터 엔지니어는 2024년 초 이후 발생한 오류 코드가 포함된 오류를 표시하는 쿼리를
작성해야 합니다. 쿼리는 가장 최근 오류 10개를 반환해야 합니다. 이러한 요구 사항을 충족하는 쿼리는 무엇입니까?

답변 목록:
A. 총 이벤트 이름, 오류 코드, 오류 코드가 null이 아닌 cloudtrail_logs의 오류 메시지 및 이벤트 이름 >=
'2024-01-01T00:00:00Z' 그룹별 이벤트 이름, 오류 코드, 오류 메시지 순서로 개수(*)를 선택합니다.
B. 총이벤트 이름, 오류 코드, 오류 메시지(여기서 이벤트 시간 >= '2024-01-01T00:00:00Z' 그룹)는 이벤트 이름, 오류
코드, 오류 메시지 순서로 TotalEvents 설명 제한 10별로 선택됩니다.
C. count(*)를 TotalEvents, eventname, errorcode, errormessage from
cloudtrail_logswhere eventtime >= '2024-01-01T00:00:00Z' 그룹 by eventname,
errorcode, errormessageorder by eventname asc 제한 10;
D. 오류 코드가 null이 아니고 eventtime >= '2024-01-01T00:00:00Z' 그룹인 cloudtrail_logs의
TotalEvents, eventname, errorcode, errormessage로 개수(*)를 eventname, errorcode,
errormessagelimit 10별로 선택합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 199 ===
문제: 온라인 소매업체는 여러 배송 파트너를 통해 고객에게 제품을 배송합니다. 배달 파트너는 주문 요약을 소매업체에 보냅니다. 소매업체는 Amazon
S3에 주문 요약을 저장합니다. 일부 주문 요약에는 고객에 대한 개인 식별 정보(PII)가 포함되어 있습니다. 데이터 엔지니어는 회사가 PII를
수정할 수 있도록 주문 요약에서 PII를 감지해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 아마존 텍스트랙트
B. Amazon S3 스토리지 렌즈
C. 아마존 메이시
D. Amazon SageMaker 데이터 랭글러

정답: Suggested Answer:
C

==================================================

=== 문제 200 ===
문제: 회사에는 사용자가 다양한 IAM 역할을 사용하여 액세스하는 Amazon Redshift 데이터 웨어하우스가 있습니다. 매일 100명 이상의
사용자가 데이터 웨어하우스에 액세스합니다. 회사는 각 사용자의 직무 역할, 권한 및 데이터의 민감도를 기반으로 개체에 대한 사용자 액세스를
제어하려고 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. Amazon Redshift의 역할 기반 액세스 제어(RBAC) 기능을 사용하십시오.
B. Amazon Redshift의 행 수준 보안(RLS) 기능을 사용하십시오.
C. Amazon Redshift의 열 수준 보안(CLS) 기능을 사용하십시오.
D. Amazon Redshift에서 동적 데이터 마스킹 정책을 사용합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 201 ===
문제: 한 회사는 Amazon DataZone을 데이터 거버넌스 및 비즈니스 카탈로그 솔루션으로 사용합니다. 회사는 Amazon S3 데이터 레이크에
데이터를 저장합니다. 이 회사는 AWS Glue 데이터 카탈로그와 함께 AWS Glue를 사용합니다. 데이터 엔지니어는 AWS Glue 데이터
품질 점수를 Amazon DataZone 포털에 게시해야 합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 특정 AWS Glue 테이블에 적용되는 DQDL(데이터 품질 정의 언어) 규칙을 사용하여 데이터 품질 규칙 세트를 생성합니다. 매일
실행되도록 규칙 세트를 예약합니다. Amazon Redshift 데이터 소스를 갖도록 Amazon DataZone 프로젝트를 구성합니다. 데이터
소스에 대한 데이터 품질 구성을 활성화합니다.
B. 데이터 품질 평가 변환을 사용하도록 AWS Glue ETL 작업을 구성합니다. 작업 내부에 데이터 품질 규칙 세트를 정의합니다. AWS
Glue 데이터 소스를 갖도록 Amazon DataZone 프로젝트를 구성합니다. 데이터 소스에 대한 데이터 품질 구성을 활성화합니다.
C. 특정 AWS Glue 테이블에 적용되는 DQDL(데이터 품질 정의 언어) 규칙을 사용하여 데이터 품질 규칙 세트를 생성합니다. 매일
실행되도록 규칙 세트를 예약합니다. AWS Glue 데이터 소스를 갖도록 Amazon DataZone 프로젝트를 구성합니다. 데이터 소스에 대한
데이터 품질 구성을 활성화합니다.
D. 데이터 품질 평가 변환을 사용하도록 AWS Glue ETL 작업을 구성합니다. 작업 내부에 데이터 품질 규칙 세트를 정의합니다.
Amazon Redshift 데이터 소스를 갖도록 Amazon DataZone 프로젝트를 구성합니다. 데이터 소스에 대한 데이터 품질 구성을
활성화합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 202 ===
문제: 한 회사가 Amazon Redshift에 데이터 웨어하우스를 보유하고 있습니다. 보안 규정을 준수하기 위해 회사는 데이터 웨어하우스에 대한 모든
사용자 활동과 연결 활동을 기록하고 저장해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. Amazon S3 버킷을 생성합니다. Amazon Redshift 클러스터에 대한 로깅을 활성화합니다. 로그를 저장하려면 로깅 구성에서
S3 버킷을 지정하세요.
B. Amazon Elastic File System(Amazon EFS) 파일 시스템을 생성합니다. Amazon Redshift 클러스터에
대한 로깅을 활성화합니다. EFS 파일 시스템에 로그를 씁니다.
C. Amazon Aurora MySQL 데이터베이스를 생성합니다. Amazon Redshift 클러스터에 대한 로깅을 활성화합니다.
Aurora MySQL 데이터베이스의 테이블에 로그를 씁니다.
D. Amazon Elastic Block Store(Amazon EBS) 볼륨을 생성합니다. Amazon Redshift 클러스터에 대한
로깅을 활성화합니다. EBS 볼륨에 로그를 씁니다.

정답: Suggested Answer:
A

==================================================

=== 문제 203 ===
문제: 한 회사가 Teradata에서 Amazon Redshift로 데이터 웨어하우스를 마이그레이션하려고 합니다. 최소한의 운영 노력으로 이 요구
사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. AWS Database Migration Service(AWS DMS) 스키마 변환을 사용하여 스키마를 마이그레이션합니다. AWS DMS를
사용하여 데이터를 마이그레이션합니다.
B. AWS Schema Conversion Tool(AWS SCT)을 사용하여 스키마를 마이그레이션합니다. AWS Database
Migration Service(AWS DMS)를 사용하여 데이터를 마이그레이션합니다.
C. AWS Database Migration Service(AWS DMS)를 사용하여 데이터를 마이그레이션합니다. 자동 스키마 변환을
사용합니다.
D. Teradata에서 스키마 정의를 수동으로 내보냅니다. Amazon Redshift 데이터베이스에 스키마를 적용합니다. AWS
Database Migration Service(AWS DMS)를 사용하여 데이터를 마이그레이션합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 204 ===
문제: 회사는 다양한 AWS 및 타사 데이터 저장소를 사용합니다. 회사는 분석을 수행하기 위해 모든 데이터를 중앙 데이터 웨어하우스에 통합하려고
합니다. 사용자는 분석 쿼리에 대해 빠른 응답 시간이 필요합니다. 이 회사는 직접 쿼리 모드에서 Amazon QuickSight를 사용하여
데이터를 시각화합니다. 사용자는 일반적으로 예측할 수 없는 급증과 함께 매일 몇 시간 동안 쿼리를 실행합니다. 최소한의 운영 오버헤드로 이러한
요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Redshift Serverless를 사용하여 모든 데이터를 Amazon Redshift 관리형 스토리지(RMS)에
로드합니다.
B. Amazon Athena를 사용하여 모든 데이터를 Apache Parquet 형식으로 Amazon S3에 로드합니다.
C. Amazon Redshift 프로비저닝된 클러스터를 사용하여 모든 데이터를 Amazon Redshift 관리형 스토리지(RMS)에
로드합니다.
D. Amazon Aurora PostgreSQL을 사용하여 모든 데이터를 Aurora에 로드합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 205 ===
문제: 데이터 엔지니어는 Amazon Kinesis Data Streams를 사용하여 매일 애플리케이션의 사용자 행동 데이터가 포함된 레코드를 수집하고
처리합니다. 데이터 엔지니어는 핫 샤드가 데이터 스트림의 다른 샤드보다 훨씬 많은 데이터를 수신하기 때문에 데이터 스트림에 제한이 발생하고
있음을 발견했습니다. 데이터 엔지니어는 제한 문제를 어떻게 해결해야 합니까?

답변 목록:
A. 무작위 파티션 키를 사용하여 수집된 레코드를 배포합니다.
B. 데이터 스트림의 샤드 수를 늘립니다. 샤드 전체에 레코드를 배포합니다.
C. 스트림 용량에 맞게 생산자가 초당 전송하는 레코드 수를 제한합니다.
D. 스트림 용량에 맞게 생산자가 보내는 레코드의 크기를 줄입니다.

정답: Suggested Answer:
A

==================================================

=== 문제 206 ===
문제: 회사에는 수십 단계로 구성된 데이터 처리 파이프라인이 있습니다. 데이터 처리 파이프라인은 단계가 실패하거나 성공할 때 실시간으로 경고를 보내야
합니다. 데이터 처리 파이프라인은 Amazon S3 버킷, AWS Lambda 함수 및 AWS Step Functions 상태 머신의 조합을
사용합니다. 데이터 엔지니어는 전체 파이프라인을 모니터링하기 위한 솔루션을 만들어야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 상태 시스템 실행이 완료되면 Amazon S3 버킷에 알림을 저장하도록 Step Functions 상태 시스템을 구성합니다. S3 버킷에서
S3 이벤트 알림을 활성화합니다.
B. 상태 시스템 실행이 완료되면 Amazon S3 버킷에 알림을 저장하도록 AWS Lambda 함수를 구성합니다. S3 버킷에서 S3 이벤트
알림을 활성화합니다.
C. AWS CloudTrail을 사용하여 상태 머신이 실행에 실패하거나 실행에 성공할 때 알림을 보내는 Amazon Simple 알림
서비스(Amazon SNS) 주제에 메시지를 보냅니다.
D. 상태 시스템의 실행 상태가 변경될 때 반응하도록 Amazon EventBridge 규칙을 구성합니다. 알림을 보내는 Amazon
Simple 알림 서비스(Amazon SNS) 주제에 메시지를 보내도록 규칙을 구성합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 207 ===
문제: 한 회사에 Amazon API Gateway REST API와 AWS Lambda 함수를 사용하여 Amazon DynamoDB 인스턴스에서
데이터를 검색하는 애플리케이션이 있습니다. 최근 사용자들은 애플리케이션의 응답 시간에서 간헐적으로 높은 대기 시간이 발생한다고 보고했습니다.
데이터 엔지니어는 회사의 다른 Lambda 함수 호출이 증가할 때 Lambda 함수가 자주 조절되는 것을 발견했습니다. 회사는 API의
Lambda 기능이 다른 Lambda 기능의 영향을 받지 않고 작동하는지 확인하려고 합니다. 이 요구 사항을 가장 비용 효율적으로 충족하는
솔루션은 무엇입니까?

답변 목록:
A. DynamoDB에서 읽기 용량 단위(RCU) 수를 늘립니다.
B. Lambda 함수에 대해 프로비저닝된 동시성을 구성합니다.
C. Lambda 함수에 대해 예약된 동시성을 구성합니다.
D. Lambda 함수 제한 시간 및 할당된 메모리를 늘립니다.

정답: Suggested Answer:
C

==================================================

=== 문제 208 ===
문제: 회사에는 개인 식별 정보(PII) 데이터와 PII가 아닌 데이터가 포함된 JSON 파일이 있습니다. 회사는 쿼리 및 분석에 데이터를 사용할 수
있도록 해야 합니다. PII가 아닌 데이터는 회사의 모든 사람이 사용할 수 있어야 합니다. PII 데이터는 제한된 직원 그룹만 사용할 수 있어야
합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon S3 버킷에 JSON 파일을 저장합니다. 파일을 PII 데이터가 포함된 파일 하나와 PII가 아닌 데이터가 포함된 파일 하나로
분할하도록 AWS Glue를 구성합니다. 출력 파일을 별도의 S3 버킷에 저장합니다. 사용자 유형에 따라 버킷에 필요한 액세스 권한을
부여합니다.
B. Amazon S3 버킷에 JSON 파일을 저장합니다. Amazon Macie를 사용하여 PII 데이터를 식별하고 사용자 유형에 따라 액세스
권한을 부여합니다.
C. Amazon S3 버킷에 JSON 파일을 저장합니다. AWS Lake Formation에서 파일 스키마를 카탈로그화합니다. Lake
Formation 권한을 사용하여 사용자 유형에 따라 필요한 데이터에 대한 액세스를 제공하십시오.
D. 두 개의 Amazon RDS PostgreSQL 데이터베이스를 생성합니다. PII 데이터와 PII가 아닌 데이터를 별도의 데이터베이스에
로드하십시오. 사용자 유형에 따라 데이터베이스에 대한 액세스 권한을 부여합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 209 ===
문제: 회사에서는 AWS Key Management Service(AWS KMS)를 사용하여 Amazon Redshift 클러스터를 암호화합니다.
회사는 재해 복구(DR) 전략의 일환으로 Redshift 클러스터의 지역 간 스냅샷을 구성하려고 합니다. 데이터 엔지니어는 AWS CLI를
사용하여 리전 간 스냅샷을 생성해야 합니다. 이러한 요구 사항을 충족하는 단계 조합은 무엇입니까? (2개를 선택하세요.)

답변 목록:
A. KMS 키를 생성하고 소스 AWS 리전에서 스냅샷 복사 권한을 구성합니다.
B. 소스 AWS 리전에서 스냅샷 복사를 활성화합니다. 대상 AWS 리전에 생성된 스냅샷 복사 권한 부여의 이름을 지정합니다.
C. 소스 AWS 리전에서 스냅샷 복사를 활성화합니다. 소스 AWS 리전에서 생성된 스냅샷 복사 권한 부여의 이름을 지정합니다.
D. KMS 키를 생성하고 대상 AWS 리전에서 스냅샷 복사 권한을 구성합니다.
E. 클러스터를 다중 AZ 배포로 변환합니다.

정답: Suggested Answer:
BD

==================================================

=== 문제 210 ===
문제: 한 회사가 Amazon S3를 사용하여 데이터 레이크를 구축하고 있습니다. 회사는 여러 소스 데이터베이스의 레코드를 Apache Parquet
형식으로 복제해야 합니다. 대부분의 소스 데이터베이스는 Amazon RDS에서 호스팅됩니다. 그러나 하나의 소스 데이터베이스는 온프레미스
Microsoft SQL Server Enterprise 인스턴스입니다. 회사는 모든 소스 데이터베이스의 기존 데이터와 대상 S3 데이터
레이크에 대한 모든 향후 변경 사항을 복제하는 솔루션을 구현해야 합니다. 이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 하나의 AWS Glue 작업을 사용하여 기존 데이터를 복제합니다. 두 번째 AWS Glue 작업을 사용하여 향후 변경 사항을 복제합니다.
B. AWS Database Migration Service(AWS DMS)를 사용하여 기존 데이터를 복제합니다. AWS Glue 작업을
사용하여 향후 변경 사항을 복제합니다.
C. AWS Database Migration Service(AWS DMS)를 사용하여 기존 데이터와 향후 변경 사항을 복제합니다.
D. AWS Glue 작업을 사용하여 기존 데이터를 복제합니다. Amazon Kinesis Data Streams를 사용하여 향후 변경 사항을
복제합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 211 ===
문제: 데이터 엔지니어는 소매 주문을 처리하는 데이터 파이프라인의 성능을 최적화해야 합니다. 주문에 대한 데이터는 매일 Amazon S3 버킷에
수집됩니다. 데이터 엔지니어는 매주 한 번씩 쿼리를 실행하여 여러 기간의 주문 날짜를 기반으로 주문 데이터에서 측정항목을 추출합니다. 데이터
엔지니어에게는 데이터 양이 증가해도 쿼리 성능이 저하되지 않도록 보장하는 최적화 솔루션이 필요합니다. 이 요구 사항을 가장 비용 효율적으로
충족하는 솔루션은 무엇입니까?

답변 목록:
A. 주문 날짜를 기준으로 데이터를 분할합니다. Amazon Athena를 사용하여 데이터를 쿼리합니다.
B. 주문 날짜를 기준으로 데이터를 분할합니다. Amazon Redshift를 사용하여 데이터를 쿼리합니다.
C. 로드 날짜를 기준으로 데이터를 분할합니다. Amazon EMR을 사용하여 데이터를 쿼리합니다.
D. 로드 날짜를 기준으로 데이터를 분할합니다. Amazon Aurora를 사용하여 데이터를 쿼리합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 212 ===
문제: 데이터 엔지니어에게는 여러 도시와 주의 판매 정보가 포함된 두 개의 데이터 세트가 있습니다. 한 데이터 세트의 이름은 참조이고 다른 데이터
세트의 이름은 기본입니다. 데이터 엔지니어는 기본 데이터 세트의 도시 및 주 열에 있는 특정 값 집합이 참조 데이터 세트의 동일한 특정 값과
정확히 일치하는지 확인하기 위한 솔루션이 필요합니다. 데이터 엔지니어는 AWS Glue 데이터 품질 작업에서 DQDL(데이터 품질 정의 언어)
규칙을 사용하려고 합니다. 이러한 요구 사항을 충족하는 규칙은 무엇입니까?

답변 목록:
A. DatasetMatch "참조" "city->ref_city, state->ref_state" = 1.0
B. 참조 무결성 "city,state" "reference.{ref_city,ref_state}" = 1.0
C. DatasetMatch "참조" "city->ref_city, state->ref_state" = 100
D. 참조 무결성 “city,state” "reference.{ref_city,ref_state}” = 100

정답: Suggested Answer:
B

==================================================

=== 문제 213 ===
문제: 회사에는 고객 데이터가 포함된 온프레미스 PostgreSQL 데이터베이스가 있습니다. 회사는 고객 데이터를 Amazon Redshift 데이터
웨어하우스로 마이그레이션하려고 합니다. 회사는 온프레미스 데이터베이스와 AWS 간에 VPN 연결을 설정했습니다. 온프레미스 데이터베이스는
지속적으로 업데이트됩니다. 회사는 Amazon Redshift의 데이터가 최대한 빨리 업데이트되도록 해야 합니다. 어떤 솔루션이 이러한 요구
사항을 충족합니까?

답변 목록:
A. pg_dump 유틸리티를 사용하여 PostgreSQL 데이터베이스 백업을 생성합니다. AWS Schema Conversion
Tool(AWS SCT)을 사용하여 Amazon Redshift에 백업을 업로드합니다. 백업을 수행하도록 크론 작업을 설정합니다. 매일 밤
Amazon Redshift에 백업을 업로드합니다.
B. AWS Database Migration Service(AWS DMS) 전체 로드 작업을 생성합니다. Amazon Redshift를
대상으로 설정합니다. 변경 데이터 캡처(CDC) 기능을 사용하도록 작업을 구성합니다.
C. pg_dump 유틸리티를 사용하여 PostgreSQL 데이터베이스 백업을 생성합니다. Amazon S3 버킷에 백업을 업로드합니다.
COPY 명령을 사용하여 Amazon Redshift로 데이터를 가져옵니다.
D. AWS Database Migration Service(AWS DMS) 전체 로드 작업을 생성합니다. Amazon Redshift를
대상으로 설정합니다. 매일 밤 Amazon Redshift에 데이터베이스 전체 로드를 수행하도록 작업을 구성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 214 ===
문제: 회사에 CSV 및 JSON 형식의 여러 가지 새로운 데이터 세트가 있습니다. 데이터 엔지니어는 SQL 쿼리를 사용하여 데이터를 분석할 데이터
분석가 팀이 데이터를 사용할 수 있도록 해야 합니다. 가장 비용 효율적인 방식으로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon RDS MySQL 클러스터를 생성합니다. AWS Glue를 사용하여 CSV 및 JSON 파일을 변환하고 데이터베이스 테이블로
로드합니다. 데이터 분석가에게 MySQL 클러스터에 대한 액세스 권한을 제공합니다.
B. 새 데이터가 포함된 AWS Glue DataBrew 프로젝트를 생성합니다. 데이터 분석가가 DataBrew 프로젝트를 사용할 수 있도록
하십시오.
C. Amazon S3 버킷에 데이터를 저장합니다. AWS Glue 크롤러를 사용하여 S3 버킷을 테이블로 분류합니다. 데이터 사용량 임계값이
있는 Amazon Athena 작업 그룹을 생성합니다. 데이터 분석가에게 Athena 작업 그룹에 대한 액세스 권한을 부여합니다.
D. Amazon QuickSight의 SPICE(초고속, 병렬, 인 메모리 계산 엔진)에 데이터를 로드합니다. 데이터 분석가가
QuickSight에서 분석 및 대시보드를 생성할 수 있도록 허용합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 215 ===
문제: 소매 회사는 Orders라는 Amazon Aurora 테이블에 주문 정보를 저장합니다. 회사는 최소한의 대기 시간으로 Orders 테이블에서
운영 보고서를 생성해야 합니다. Orders 테이블에는 수십억 개의 행이 포함되어 있으며 초당 100,000건 이상의 트랜잭션이 발생할 수
있습니다. 마케팅 팀은 마케팅 팀의 데이터 웨어하우스에 있는 Campaigns라는 Amazon Redshift 테이블을 사용하여 Orders
데이터를 조인해야 합니다. 운영 중인 Aurora 데이터베이스는 영향을 받아서는 안 됩니다. 최소한의 운영 노력으로 이러한 요구 사항을 충족할
수 있는 솔루션은 무엇입니까?

답변 목록:
A. AWS Database Migration Service(AWS DMS) 서버리스를 사용하여 Orders 테이블을 Amazon
Redshift에 복제합니다. Amazon Redshift에서 구체화된 뷰를 생성하여 캠페인 테이블과 조인합니다.
B. Amazon Redshift와 Aurora zero-ETL 통합을 사용하여 Orders 테이블을 복제합니다. Amazon
Redshift에서 구체화된 뷰를 생성하여 캠페인 테이블과 조인합니다.
C. AWS Glue를 사용하여 Orders 테이블을 Amazon Redshift에 복제합니다. Amazon Redshift에서 구체화된 뷰를
생성하여 캠페인 테이블과 조인합니다.
D. 통합 쿼리를 사용하여 Aurora에서 직접 Orders 테이블을 쿼리합니다. Amazon Redshift에서 구체화된 뷰를 생성하여 캠페인
테이블과 조인합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 216 ===
문제: 한 회사가 CSV 파일을 Amazon Redshift로 수집하는 새로운 애플리케이션을 구축하고 있습니다. 회사는 애플리케이션의 프런트엔드를
개발했습니다. 파일은 Amazon S3 버킷에 저장됩니다. 파일 크기는 5MB를 넘지 않습니다. 데이터 엔지니어가 CSV 파일에 대한
ETL(추출, 변환, 로드) 파이프라인을 개발하고 있습니다. 데이터 엔지니어는 Redshift 클러스터와 파일의 데이터를 Redshift
클러스터로 복사하는 AWS Lambda 함수를 구성했습니다. 이러한 요구 사항을 충족하기 위해 데이터 엔지니어는 어떤 추가 단계를 수행해야
합니까?

답변 목록:
A. Amazon EventBridge에 S3 이벤트 알림을 보내도록 버킷을 구성합니다. S3 새 객체 생성 이벤트와 일치하는
EventBridge 규칙을 구성합니다. Lambda 함수를 대상으로 설정합니다.
B. S3 이벤트 알림을 Amazon Simple Queue Service(Amazon SQS) 대기열로 보내도록 $3 버킷을 구성합니다.
대기열을 처리하도록 Lambda 함수를 구성합니다.
C. 새로운 S3 객체를 Amazon Kinesis Data Streams의 데이터 스트림으로 스트리밍하도록 AWS Database
Migration Service(AWS DMS)를 구성합니다. Lambda 함수를 데이터 스트림의 대상으로 설정합니다.
D. S3 새 객체 생성 이벤트와 일치하는 Amazon EventBridge 규칙을 구성합니다. Amazon Simple Queue
Service(Amazon SQS) 대기열을 규칙 대상으로 설정합니다. 대기열을 처리하도록 Lambda 함수를 구성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 217 ===
문제: 회사는 민감한 데이터를 Amazon Redshift 테이블에 저장합니다. 회사는 특정 사용자에게 민감한 데이터에 접근할 수 있는 권한을 부여해야
합니다. 회사는 데이터에 중복을 생성해서는 안 됩니다. 고객 지원 사용자는 중요한 데이터의 마지막 4자를 볼 수 있어야 합니다. 감사 사용자는
민감한 데이터의 전체 가치를 볼 수 있어야 합니다. 다른 사용자는 민감한 정보에 액세스할 수 없습니다. 어떤 솔루션이 이러한 요구 사항을
충족합니까?

답변 목록:
A. 각 사용자 역할에 따라 액세스를 허용하는 동적 데이터 마스킹 정책을 만듭니다. 특정 액세스 권한이 있는 IAM 역할을 생성합니다. 중요한
데이터가 포함된 열에 마스킹 정책을 연결합니다.
B. Redshift 클러스터에서 메타데이터 보안을 활성화합니다. 고객 지원 사용자 및 감사 사용자에 대한 IAM 사용자 및 IAM 역할을
생성합니다. IAM 사용자 및 IAM 역할에 Redshift 클러스터의 메타데이터를 볼 수 있는 권한을 부여합니다.
C. 각 사용자 역할에 따라 액세스를 허용하는 행 수준 보안 정책을 만듭니다. 특정 액세스 권한이 있는 IAM 역할을 생성합니다. 보안 정책을
테이블에 연결합니다.
D. 중요한 데이터를 수정하고 데이터를 새 Redshift 테이블에 로드하는 AWS Glue 작업을 생성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 218 ===
문제: 데이터 엔지니어는 AWS Lake Formation을 사용하여 Amazon S3 버킷에 저장된 데이터에 대한 액세스를 관리합니다. 데이터
엔지니어는 버킷의 특정 파일 위치인 s3://examplepath에서 데이터를 검색하도록 AWS Glue 크롤러를 구성합니다. 다음 오류와 함께
크롤러 실행이 실패합니다. "S3 위치: s3://examplepath가 등록되지 않았습니다." 데이터 엔지니어가 오류를 해결해야 합니다. 이
요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue 크롤러의 IAM 역할에 적절한 IAM 정책을 연결하여 S3 위치를 읽을 수 있는 크롤러 권한을 부여합니다.
B. 크롤러가 데이터에 액세스할 수 있도록 Lake Formation에 S3 위치를 등록하세요.
C. 새로운 AWS Glue 데이터베이스를 생성합니다. 크롤러의 데이터베이스에 올바른 권한을 할당합니다.
D. 교차 계정 액세스를 허용하도록 S3 버킷 정책을 구성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 219 ===
문제: 한 회사가 AWS에 데이터 레이크와 데이터 웨어하우스를 구축했습니다. 회사는 현재 데이터 스토리지 솔루션을 향상시키기 위해 데이터 카탈로그를
구현하려고 합니다. 회사는 모든 자산의 데이터 카탈로그에 비즈니스 메타데이터와 용어집 정보를 추가할 수 있는 기능을 원합니다. 최소한의 운영
오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue 카탈로그를 사용하세요. 비즈니스 용어집에 대한 사용자 테이블을 생성합니다. AWS Glue API를 사용하여 테이블 속성을
변경하여 비즈니스 메타데이터를 추가합니다. 메타데이터에 액세스할 웹 애플리케이션을 만듭니다.
B. Apache Hive 메타스토어를 사용합니다. 비즈니스 용어집에 대한 사용자 테이블을 생성합니다. ALTER TABLE 명령을 사용하여
테이블 속성을 변경하여 비즈니스 메타데이터를 추가합니다. 메타데이터에 액세스할 웹 애플리케이션을 만듭니다.
C. Amazon DataZone을 사용하세요. 비즈니스 용어집을 생성합니다. 메타데이터 양식을 만듭니다. 메타데이터에 액세스하려면 Amazon
DataZone 데이터 포털을 사용하십시오.
D. Amazon OpenSearch 서비스를 사용하세요. 비즈니스 용어집에 대한 색인을 생성합니다. 비즈니스 메타데이터에 대한 두 번째 색인을
만듭니다. OpenSearch Service 대시보드를 사용하여 메타데이터에 액세스합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 220 ===
문제: 데이터 엔지니어는 AWS Glue ETL 작업을 사용하여 고객 계정 정보가 포함된 테이블에서 오래된 고객 기록을 제거하고 있습니다. 데이터
엔지니어는 다음 SQL 명령을 사용하여 고객 계정 테이블에서 Monthly_accounts_update 테이블에 존재하는 고객을 제거합니다.
MERGE INTO 계정 t USING Monthly_accounts_update s ON t.customer = s.customer -
WHEN MATCHED - THEN DELETE - 데이터 엔지니어가 SQL 명령을 실행하면 어떻게 됩니까?

답변 목록:
A. 고객 계정 테이블과 Monthly_accounts_update 테이블 모두에 존재하는 모든 고객 레코드가 계정 테이블에서 삭제됩니다.
B. 두 테이블 모두에 있는 고객 레코드만 고객 계정 테이블에 유지됩니다.
C. Monthly_accounts_update 테이블이 삭제됩니다.
D. 명령 구문이 AWS Glue에서 유효하지 않기 때문에 레코드가 삭제되지 않습니다.

정답: Suggested Answer:
A

==================================================

=== 문제 221 ===
문제: 회사는 공급업체로부터 마케팅 캠페인 데이터를 받습니다. 회사는 40~60분마다 데이터를 Amazon S3 버킷으로 수집합니다. 데이터는 CSV
형식입니다. 파일 크기는 100KB에서 300KB 사이입니다. 데이터 엔지니어는 각 파일의 콘텐츠를 Amazon Redshift에 업로드하기
위해 ETL(추출, 변환 및 로드) 파이프라인을 설정해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Redshift에 연결하고 COPY 명령을 실행하는 AWS Lambda 함수를 생성합니다. Amazon EventBridge를
사용하여 Amazon S3 업로드 트리거를 기반으로 Lambda 함수를 호출합니다.
B. Amazon Data Firehose 스트림을 생성합니다. S3 버킷에서 데이터를 가져오기 위한 소스로 AWS Lambda 함수를
사용하도록 스트림을 구성합니다. Amazon Redshift를 대상으로 설정합니다.
C. Amazon Redshift Spectrum을 사용하여 S3 버킷을 쿼리합니다. AWS Glue 데이터 카탈로그의 메타데이터를
업데이트하도록 S3 버킷용 AWS Glue 크롤러를 구성합니다.
D. AWS Database Migration Service(AWS DMS) 작업을 생성합니다. 마이그레이션할 적절한 데이터 스키마를
지정합니다. 사용할 적절한 마이그레이션 유형을 지정합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 222 ===
문제: 한 회사가 Amazon S3 버킷에 차원 테이블을 구축하려고 합니다. 버킷에는 1,000만 개의 레코드가 포함된 기록 데이터가 포함되어
있습니다. 기록 데이터의 크기는 1TB입니다. 데이터 엔지니어는 기본 테이블에서 매일 최대 10,000개의 레코드에 대한 변경 사항을
업데이트하는 솔루션이 필요합니다. 가장 낮은 런타임으로 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon EMR에서 Apache Spark 작업을 개발하여 기록 데이터와 새로운 변경 사항을 두 개의 Spark DataFrame으로
읽습니다. Spark 업데이트 방법을 사용하여 기본 테이블을 업데이트합니다.
B. AWS Glue Python 작업을 개발하여 기록 데이터와 새로운 변경 사항을 두 개의 Pandas DataFrame으로 읽습니다.
Pandas 업데이트 방법을 사용하여 기본 테이블을 업데이트합니다.
C. AWS Glue Apache Spark 작업을 개발하여 기록 데이터와 새로운 변경 사항을 두 개의 Spark DataFrame으로
읽습니다. Spark 업데이트 방법을 사용하여 기본 테이블을 업데이트합니다.
D. Apache Spark DataFrames의 새로운 변경 사항을 읽으려면 Amazon EMR 작업을 개발하십시오. Apache Hudi
프레임워크를 사용하여 Amazon S3에서 기본 테이블을 생성합니다. Spark 업데이트 방법을 사용하여 기본 테이블을 업데이트합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 223 ===
문제: 데이터 엔지니어는 데이터 세트에 대한 변환을 수행하기 위해 AWS Glue Apache Spark ETL 작업을 개발합니다. 데이터 엔지니어가
작업을 실행하면 작업에서 "장치에 남은 공간이 없습니다."라는 오류를 반환합니다. 데이터 엔지니어는 오류의 원인을 식별하고 솔루션을 제공해야
합니다. 어떤 단계 조합이 이 요구 사항을 가장 비용 효율적으로 충족합니까? (2개를 선택하세요.)

답변 목록:
A. 데이터 왜곡을 해결하기 위해 작업자를 수직으로 확장합니다.
B. Spark UI 및 AWS Glue 지표를 사용하여 Spark 실행기의 데이터 편향을 모니터링합니다.
C. 데이터 왜곡을 해결하기 위해 작업자 수를 수평으로 확장합니다.
D. --write-shuffie-files-to-s3 작업 매개변수를 활성화합니다. 염장 기술을 사용하십시오.
E. Amazon CloudWatch의 오류 로그를 사용하여 데이터 편향을 모니터링합니다.

정답: Suggested Answer:
BD

==================================================

=== 문제 224 ===
문제: 회사에는 Amazon RDS 인스턴스, AWS Glue 작업 및 Amazon S3 버킷을 사용하는 데이터 파이프라인이 있습니다. RDS
인스턴스와 AWS Glue 작업은 VPC의 프라이빗 서브넷과 동일한 보안 그룹에서 실행됩니다. 사용자가 AWS Glue 작업이 RDS 인스턴스에
연결하는 것을 방지하는 보안 그룹을 변경했습니다. 변경 후 보안 그룹에는 특정 IP 주소의 인바운드 SSH 트래픽을 허용하는 단일 규칙이
포함됩니다. 회사는 연결 문제를 해결해야 합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 모든 TCP 포트에서 모든 TCP 트래픽을 허용하는 인바운드 규칙을 추가합니다. 보안 그룹을 소스로 설정합니다.
B. 모든 UDP 포트에서 모든 TCP 트래픽을 허용하는 인바운드 규칙을 추가합니다. RDS 인스턴스의 프라이빗 IP 주소를 소스로 설정합니다.
C. 모든 TCP 포트에서 모든 TCP 트래픽을 허용하는 인바운드 규칙을 추가합니다. RDS 인스턴스의 DNS 이름을 소스로 설정합니다.
D. 기존 SSH 규칙의 소스를 RDS 인스턴스의 프라이빗 IP 주소로 바꿉니다. 인바운드 SSH 규칙과 동일한 소스, 대상 및 프로토콜을
사용하여 아웃바운드 규칙을 만듭니다.

정답: Suggested Answer:
A

==================================================

=== 문제 225 ===
문제: 한 회사는 비즈니스 인텔리전스 보고서용 데이터를 처리하기 위해 새로운 데이터 파이프라인을 구축합니다. 사용자는 보고서에 데이터가 누락된 것을
발견했습니다. 데이터 엔지니어는 데이터가 스토리지에 추가되기 전 단계에서 Null 값이 포함된 열과 참조 무결성에 대한 데이터 품질 검사를
추가해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon SageMaker Data Wrangler를 사용하여 데이터 품질 및 통찰력 보고서를 생성하십시오.
B. AWS Glue ETL 작업을 사용하여 데이터에 대한 데이터 품질 평가 변환을 수행합니다. 요청된 열에 IsComplete 규칙을
사용합니다. 각 조인에 대해 ReferentialItegrity 규칙을 사용하십시오.
C. AWS Glue ETL 작업을 사용하여 데이터에 대한 SQL 변환을 수행하여 요청된 열에 null 값이 포함되어 있는지 확인합니다. 참조
무결성을 확인하려면 두 번째 SQL 변환을 사용하십시오.
D. Amazon SageMaker Data Wrangler와 사용자 지정 Python 변환을 사용하여 null 값과 참조 무결성을 확인하는
사용자 지정 규칙을 생성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 226 ===
문제: 한 회사가 AWS에서 데이터 파이프라인을 설정하고 있습니다. 파이프라인은 Amazon S3 버킷에서 클라이언트 데이터를 추출하고, 품질 검사를
수행하고, 데이터를 변환합니다. 파이프라인은 처리된 데이터를 관계형 데이터베이스에 저장합니다. 회사는 처리된 데이터를 향후 쿼리에 사용합니다.
이러한 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue ETL을 사용하여 S3 버킷에서 데이터를 추출하고 변환을 수행합니다. AWS Glue 데이터 품질을 사용하여 제안된 품질
규칙을 시행하십시오. 데이터와 품질 확인 결과를 Amazon RDS for MySQL 인스턴스에 로드합니다.
B. AWS Glue Studio를 사용하여 S3 버킷에서 데이터를 추출합니다. AWS Glue DataBrew를 사용하여 변환 및 품질 검사를
수행합니다. 처리된 데이터를 MySQL용 Amazon RDS 인스턴스에 로드합니다. 품질 검사 결과를 새 S3 버킷에 로드합니다.
C. AWS Glue ETL을 사용하여 S3 버킷에서 데이터를 추출하고 변환을 수행합니다. AWS Glue DataBrew를 사용하여 품질
검사를 수행합니다. 처리된 데이터와 품질 확인 결과를 새 S3 버킷에 로드합니다.
D. AWS Glue Studio를 사용하여 S3 버킷에서 데이터를 추출합니다. AWS Glue DataBrew를 사용하여 변환 및 품질 검사를
수행합니다. 처리된 데이터와 품질 확인 결과를 Amazon RDS for MySQL 인스턴스에 로드합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 227 ===
문제: 한 회사는 Amazon Redshift를 데이터 웨어하우스 솔루션으로 사용합니다. 회사가 Amazon Redshift에 저장하는 데이터 세트 중
하나에는 공급업체에 대한 데이터가 포함되어 있습니다. 최근 공급업체는 공급업체의 데이터를 매주 한 번씩 공급업체의 Amazon S3 버킷으로
전송해 줄 것을 회사에 요청했습니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Redshift 데이터 웨어하우스에 연결하기 위한 AWS Lambda 함수를 생성합니다. Redshift COPY 명령을 사용하여 일정에
따라 공급업체의 S3 버킷에 필요한 데이터를 복사하도록 Lambda 함수를 구성합니다.
B. Redshift 데이터 웨어하우스에 연결하기 위한 AWS Glue 작업을 생성합니다. Redshift UNLOAD 명령을 사용하여 일정에
따라 공급업체의 S3 버킷에 필요한 데이터를 로드하도록 AWS Glue 작업을 구성합니다.
C. Amazon Redshift 데이터 공유 기능을 사용하십시오. 공급업체의 S3 버킷을 대상으로 설정합니다. 필요한 데이터를 선택하는 사용자
지정 SQL 쿼리로 소스를 구성합니다.
D. 공급업체의 S3 버킷을 대상으로 사용하도록 Amazon Redshift Spectrum을 구성하고 양방향으로 데이터 쿼리를 활성화합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 228 ===
문제: 한 회사는 Amazon Redshift 클러스터를 두 부서에서 공유하는 데이터 웨어하우스로 사용합니다. 보안 정책을 준수하려면 각 부서마다
고유한 액세스 권한이 있어야 합니다. 부서 A는 부서 A의 테이블 및 보기에 대한 액세스 권한이 있어야 합니다. 부서 B는 부서 B의 테이블 및
보기에 대한 액세스 권한이 있어야 합니다. 회사는 종종 하나의 쿼리에서 두 부서의 개체를 사용하는 SQL 쿼리를 실행합니다. 최소한의 운영
오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 각 부서의 테이블과 뷰를 전용 스키마로 그룹화합니다. 스키마 수준에서 권한을 관리합니다.
B. 각 부서의 테이블과 뷰를 전용 데이터베이스로 그룹화합니다. 데이터베이스 수준에서 권한을 관리합니다.
C. 부서 이름이 포함된 명명 규칙을 따르도록 테이블 및 뷰의 이름을 업데이트합니다. 새로운 명명 규칙에 따라 권한을 관리합니다.
D. 각 부서에 대한 IAM 사용자 그룹을 생성합니다. 자격 증명 기반 IAM 정책을 사용하여 IAM 사용자 그룹을 기반으로 테이블 및 보기
권한을 부여합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 229 ===
문제: 회사에서는 Amazon Managed Streaming for Apache Kafka(Amazon MSK) 클러스터에서 Amazon
Redshift 데이터 웨어하우스로 스트리밍 데이터를 수집하려고 합니다. 데이터 엔지니어는 낮은 데이터 액세스 시간을 제공하고 스토리지 비용을
최적화하는 솔루션을 개발해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. MSK 클러스터에 매핑되는 외부 스키마를 만듭니다. MSK 주제의 스트리밍 데이터를 사용하기 위해 외부 스키마를 참조하는 구체화된 뷰를
생성합니다.
B. Amazon MSK에서 수신되는 데이터를 처리하기 위한 AWS Glue 스트리밍 추출, 변환 및 로드(ETL) 작업을 개발합니다.
Amazon S3에 데이터를 로드합니다. Amazon Redshift Spectrum을 사용하여 Amazon S3에서 데이터를 읽습니다.
C. 스트리밍 데이터 원본에 매핑되는 외부 스키마를 만듭니다. 외부 스키마를 참조하는 새 Amazon Redshift 테이블을 생성합니다.
D. Amazon S3 버킷을 생성합니다. Amazon MSK에서 데이터를 수집합니다. S3 버킷의 데이터를 새로운 Amazon Redshift
테이블로 로드하는 이벤트 기반 AWS Lambda 함수를 생성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 230 ===
문제: 판매 회사는 AWS Glue ETL을 사용하여 Amazon S3 버킷으로 데이터를 수집, 처리 및 수집합니다. AWS Glue 파이프라인은
매시간 S3 버킷에 새 파일을 생성합니다. 파일 크기는 200KB에서 300KB까지 다양합니다. 회사는 지난 5년간의 데이터를 사용하여 판매
예측 모델을 구축하려고 합니다. 기록 데이터에는 44,000개의 파일이 포함되어 있습니다. 회사는 가장 작은 작업자 유형을 사용하여 두 번째
AWS Glue ETL 파이프라인을 구축합니다. 두 번째 파이프라인은 S3 버킷에서 기록 파일을 검색하고 다운스트림 분석을 위해 파일을
처리합니다. 회사는 두 번째 ETL 파이프라인에서 심각한 성능 문제를 발견했습니다. 회사는 두 번째 파이프라인의 성능을 개선해야 합니다. 이
요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 더 큰 작업자 유형을 사용하세요.
B. AWS Glue ETL 작업의 작업자 수를 늘립니다.
C. AWS Glue DynamicFrame 그룹화 옵션을 사용합니다.
D. AWS Glue 자동 확장을 활성화합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 231 ===
문제: 한 회사는 분석을 위해 여러 SaaS(Software as a Service) 애플리케이션의 데이터를 결합하려고 합니다. 데이터 엔지니어링 팀은
Amazon QuickSight를 사용하여 분석을 수행하고 대시보드를 구축해야 합니다. 데이터 엔지니어는 SaaS 애플리케이션에서 데이터를
추출하고 QuickSight 쿼리에 해당 데이터를 사용할 수 있도록 해야 합니다. 어떤 솔루션이 운영상 가장 효율적인 방식으로 이러한 요구
사항을 충족합니까?

답변 목록:
A. 애플리케이션에서 데이터를 추출하는 데 필요한 API를 호출하는 AWS Lambda 함수를 생성합니다. Amazon S3 버킷에 데이터를
저장합니다. AWS Glue를 사용하여 S3 버킷의 데이터를 카탈로그화합니다. QuickSight에서 데이터 원본과 데이터세트를 만듭니다.
B. AWS Lambda 함수를 Amazon Athena 데이터 소스 커넥터로 사용하여 SaaS 애플리케이션에 대해 연합 쿼리를 실행합니다.
QuickSight에서 Athena 데이터 원본과 데이터 세트를 생성합니다.
C. Amazon AppFlow를 사용하여 각 SaaS 애플리케이션에 대한 흐름을 생성합니다. Amazon S3 버킷을 대상으로 설정합니다.
데이터를 버킷으로 추출하는 흐름을 예약합니다. AWS Glue를 사용하여 S3 버킷의 데이터를 카탈로그화합니다. QuickSight에서 데이터
원본과 데이터세트를 만듭니다.
D. SaaS 애플리케이션의 데이터를 Microsoft Excel 파일로 내보냅니다. Excel 파일을 업로드하여 QuickSight에서 데이터
소스와 데이터세트를 생성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 232 ===
문제: 회사는 AWS에서 여러 애플리케이션을 실행합니다. 회사에서는 각 애플리케이션이 로그를 출력하도록 구성했습니다. 회사는 거의 실시간으로
애플리케이션 로그를 쿼리하고 시각화하기를 원합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. Amazon CloudWatch Logs 로그 그룹에 로그를 출력하도록 애플리케이션을 구성합니다. Amazon S3 버킷을 생성합니다.
필요한 로그 그룹을 S3 버킷으로 내보내는 일정에 따라 실행되는 AWS Lambda 함수를 생성합니다. Amazon Athena를 사용하여 S3
버킷의 로그 데이터를 쿼리합니다.
B. Amazon OpenSearch 서비스 도메인을 생성합니다. Amazon CloudWatch Logs 로그 그룹에 로그를 출력하도록
애플리케이션을 구성합니다. 데이터를 OpenSearch로 스트리밍하려면 각 로그 그룹에 대해 OpenSearch 서비스 구독 필터를 생성하세요.
OpenSearch Service에서 필요한 쿼리와 대시보드를 생성하여 데이터를 분석하고 시각화합니다.
C. Amazon CloudWatch Logs 로그 그룹에 로그를 출력하도록 애플리케이션을 구성합니다. CloudWatch 로그 이상 탐지를
사용하여 로그 데이터를 쿼리하고 시각화합니다.
D. SPICE(초고속, 병렬, 인 메모리 계산 엔진)를 사용하여 로그 데이터를 Amazon QuickSight로 보내도록 애플리케이션 코드를
업데이트합니다. QuickSight에서 필요한 분석 및 대시보드를 생성합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 233 ===
문제: 한 전자상거래 회사는 매일 수백만 건의 주문을 처리합니다. 이 회사는 AWS Glue ETL을 사용하여 여러 소스에서 데이터를 수집하고,
데이터를 정리하고, S3 Standard 스토리지 클래스를 사용하여 Amazon S3 버킷에 CSV 형식으로 데이터를 저장합니다. 회사는 저장된
데이터를 활용하여 일일 분석을 실시합니다. 회사는 데이터 저장 및 검색 비용을 최적화하려고 합니다. 이 요구 사항을 충족하는 솔루션은
무엇입니까?

답변 목록:
A. 데이터를 Amazon S3 Glacier 유연한 검색으로 전환합니다.
B. Amazon S3에서 Amazon Aurora 클러스터로 데이터를 전환합니다.
C. 수신 데이터를 Apache Parquet 형식으로 변환하도록 AWS Glue ETL을 구성합니다.
D. Amazon EMR을 사용하여 수신 데이터를 병렬로 처리하도록 AWS Glue ETL을 구성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 234 ===
문제: 데이터 엔지니어는 Apache Spark를 사용하여 Amazon S3에 저장된 대규모 데이터 세트를 분석하는 Amazon Athena 노트북에서
쿼리 성능을 최적화하고 있습니다. 데이터가 분할되었습니다. AWS Glue 크롤러가 파티션을 업데이트합니다. 데이터 엔지니어는 Athena
쿼리의 효율성을 높이기 위해 스캔되는 데이터의 양을 최소화하려고 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 쿼리에 파티션 필터를 적용합니다.
B. 데이터 카탈로그를 더 자주 업데이트하려면 AWS Glue 크롤러 호출 빈도를 늘립니다.
C. 중첩된 디렉터리 구조를 사용하여 Amazon S3에 있는 데이터를 구성합니다.
D. 자주 액세스하는 데이터에 대해 메모리 내 캐싱을 사용하도록 Spark를 구성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 235 ===
문제: 한 회사가 Amazon Redshift 데이터 웨어하우스를 관리하고 있습니다. 데이터 웨어하우스는 사용자 지정 VPC 내부의 퍼블릭 서브넷에
있습니다. 보안 그룹은 자체 내부의 트래픽만 허용합니다. ACL은 모든 트래픽에 열려 있습니다. 회사는 다가오는 판매 이벤트를 위해 Amazon
QuickSight에서 여러 시각화를 생성하려고 합니다. 회사는 두 번째 사용자 지정 VPC 내 퍼블릭 서브넷 내의 두 번째 AWS 계정에서
QuickSight Enterprise 에디션을 실행할 예정입니다. 새 퍼블릭 서브넷에는 기존 Redshift 클러스터로의 아웃바운드 트래픽을
허용하는 보안 그룹이 있습니다. 데이터 엔지니어는 Amazon Redshift와 QuickSight 간의 연결을 설정해야 합니다.
QuickSight는 Redshift 클러스터를 쿼리하여 대시보드를 새로 고쳐야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. QuickSight 보안 그룹의 Redshift 포트에서 인바운드 트래픽을 허용하도록 Redshift 보안 그룹을 구성합니다.
B. QuickSight 시각화에 탄력적 IP 주소를 할당합니다. 탄력적 IP 주소에서 Redshift 포트로의 인바운드 트래픽을 허용하도록
QuickSight 보안 그룹을 구성합니다.
C. Redshift VPC와 QuickSight VPC의 CIDR 범위가 동일한지 확인합니다. CIDR 범위가 다른 경우 하나의 CIDR
범위를 다른 범위와 일치하도록 재구성합니다. VPC 간에 네트워크 피어링을 설정합니다.
D. Redshift VPC에서 QuickSight 게이트웨이 엔드포인트를 생성합니다. 특정 QuickSight 계정만 엔드포인트를 사용할 수
있도록 엔드포인트 정책을 게이트웨이 엔드포인트에 연결합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 236 ===
문제: 데이터 엔지니어가 데이터 파이프라인을 구축하고 있습니다. 대용량 데이터 파일은 예측할 수 없는 시간에 매일 한 번씩 Amazon S3 버킷에
업로드됩니다. AWS Glue 워크플로는 수백 명의 작업자를 사용하여 파일을 처리하고 Amazon Redshift에 데이터를 로드합니다. 회사는
가능한 한 빨리 파일을 처리하기를 원합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. 워크플로를 시작하려면 온디맨드 AWS Glue 트리거를 생성하세요. 15분마다 실행되어 S3 버킷에서 일일 파일을 확인하는 AWS
Lambda 함수를 생성합니다. 파일이 있는 경우 AWS Glue 워크플로를 시작하도록 함수를 구성합니다.
B. 워크플로를 시작하려면 이벤트 기반 AWS Glue 트리거를 생성하세요. AWS CloudTrail에 이벤트를 기록하도록 Amazon S3를
구성합니다. Amazon EventBridge에서 규칙을 생성하여 PutObject 이벤트를 AWS Glue 트리거로 전달합니다.
C. 워크플로를 시작하려면 예약된 AWS Glue 트리거를 생성하세요. 15분마다 AWS Glue 작업을 실행하는 크론 작업을 생성합니다. S3
버킷에서 일일 파일을 확인하도록 AWS Glue 작업을 설정합니다. 파일이 없으면 작업을 중지하도록 구성합니다.
D. 워크플로를 시작하려면 온디맨드 AWS Glue 트리거를 생성하세요. AWS Database Migration Service(AWS DMS)
마이그레이션 작업을 생성합니다. DMS 소스를 S3 버킷으로 설정합니다. 대상 엔드포인트를 AWS Glue 워크플로로 설정합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 237 ===
문제: 데이터 엔지니어는 사용자가 Amazon S3 버킷에 파일을 추가할 때마다 데이터 변환 작업을 실행해야 합니다. 작업은 1분 이내에 실행됩니다.
작업은 전자 메일 메시지를 통해 데이터 엔지니어에게 출력을 보내야 합니다. 데이터 엔지니어는 사용자가 하루 중 매 시간마다 하나의 파일을 추가할
것으로 예상합니다. 어떤 솔루션이 운영상 가장 효율적인 방식으로 이러한 요구 사항을 충족합니까?

답변 목록:
A. 새 파일에 대해 S3 버킷을 폴링하는 작은 Amazon EC2 인스턴스를 생성합니다. 일정에 따라 변환 코드를 실행하여 출력을 생성합니다.
운영 체제 명령을 사용하여 이메일 메시지를 보냅니다.
B. Amazon Elastic Container Service(Amazon ECS) 작업을 실행하여 S3 버킷에서 새 파일을 폴링합니다.
일정에 따라 변환 코드를 실행하여 출력을 생성합니다. 운영 체제 명령을 사용하여 이메일 메시지를 보냅니다.
C. 데이터를 변환하는 AWS Lambda 함수를 생성합니다. 새 객체가 생성될 때 Amazon S3 이벤트 알림을 사용하여 Lambda 함수를
호출합니다. 출력을 Amazon Simple Notification Service(Amazon SNS) 주제에 게시합니다. 데이터 엔지니어의
이메일 계정으로 주제를 구독하세요.
D. Amazon EMR 클러스터를 배포합니다. EMRFS(EMR 파일 시스템)를 사용하여 S3 버킷의 파일에 액세스합니다. 일정에 따라 변환
코드를 실행하여 두 번째 S3 버킷에 대한 출력을 생성합니다. Amazon Simple 알림 서비스(Amazon SNS) 주제를 생성합니다. 새
객체가 생성되면 주제에 알리도록 Amazon S3 이벤트 알림을 구성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 238 ===
문제: 한 회사는 Amazon S3 및 AWS Glue 데이터 카탈로그를 사용하여 고객의 연락처 정보가 포함된 데이터 레이크를 관리합니다. 회사는
DynamicFrame과 함께 PySpark 및 AWS Glue 작업을 사용하여 데이터 레이크 내에서 데이터를 처리하는 워크플로를 실행합니다.
데이터 엔지니어는 고객 우편 번호가 데이터 레이크에 저장되는 방식으로 인해 워크플로에서 오류가 발생한다는 사실을 발견했습니다. 일부 우편번호에는
불필요한 숫자나 잘못된 문자가 포함되어 있습니다. 데이터 엔지니어는 데이터 레이크의 오류를 해결하고 우편번호를 수정하기 위한 솔루션이
필요합니다.

답변 목록:
A. 처리 워크플로에서 우편 번호에 필요한 형식과 일치하는 PySpark에 대한 스키마 정의를 만듭니다. 처리 중에 스키마를
DynamicFrame에 전달합니다.
B. 작업 상태 공유를 허용하려면 AWS Glue 워크플로 속성을 사용하십시오. 이전에 성공한 작업 실행의 속성을 사용하여 우편 번호 열에서
값을 읽도록 AWS Glue 작업을 구성합니다.
C. DynamicFrame의 우편번호 열에 대해 column.push_down_predicate 설정과
CatalogPartitionPredicate 설정을 구성합니다.
D. DynamicFrame added_options 매개변수 'useS3ListImplementation'을 True로 설정합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 239 ===
문제: 데이터 엔지니어가 가끔 실패하는 AWS Glue 워크플로 문제를 해결하고 있습니다. 엔지니어는 실패가 데이터 품질 문제의 결과라고 판단합니다.
비즈니스 보고 팀은 향후 워크플로가 실패할 때마다 이메일 알림을 받아야 합니다. 이 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Simple 알림 서비스(Amazon SNS) FIFO 주제를 생성합니다. 팀의 이메일 계정으로 SNS 주제를 구독하세요.
AWS Glue 작업 상태가 FAILED로 변경되면 시작되는 AWS Lambda 함수를 생성합니다. SNS 주제를 대상으로 설정하세요.
B. Amazon Simple 알림 서비스(Amazon SNS) 표준 주제를 생성합니다. 팀의 이메일 계정으로 SNS 주제를 구독하세요. AWS
Glue 작업 상태가 FAILED로 변경될 때 트리거되는 Amazon EventBridge 규칙을 생성합니다. SNS 주제를 대상으로
설정하세요.
C. Amazon Simple Queue Service(Amazon SQS) FIFO 대기열을 생성합니다. 팀의 이메일 계정을 SQS 대기열에
등록하세요. AWS Glue 작업 상태가 FAILED로 변경될 때 트리거되는 AWS Config 규칙을 생성합니다. SQS 대기열을 대상으로
설정합니다.
D. Amazon Simple Queue Service(Amazon SQS) 표준 대기열을 생성합니다. 팀의 이메일 계정을 SQS 대기열에
등록하세요. AWS Glue 작업 상태가 FAILES로 변경될 때 트리거되는 Amazon EventBridge 규칙을 생성합니다. SQS
대기열을 대상으로 설정합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 240 ===
문제: 회사는 AWS Glue 작업을 사용하여 여러 데이터 파이프라인을 구현합니다. 파이프라인은 회사에 매우 중요합니다. 회사는 파이프라인이 실패할
경우 이해관계자에게 경고하는 모니터링 메커니즘을 구현해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue 작업 실패 이벤트와 일치하는 Amazon EventBridge 규칙을 생성합니다. 이벤트를 처리하기 위해 AWS
Lambda 함수를 대상으로 하는 규칙을 구성합니다. Amazon Simple 알림 서비스(Amazon SNS) 주제에 알림을 보내도록 기능을
구성합니다.
B. AWS Glue 작업에 대한 Amazon CloudWatch Logs 로그 그룹을 구성합니다. 로그 그룹의 새 로그 생성 이벤트와
일치하도록 Amazon EventBridge 규칙을 생성합니다. AWS Glue 작업 실패 로그가 있는 경우 로그를 읽고 Amazon
Simple Notification Service(Amazon SNS) 주제에 알림을 보내는 AWS Lambda 함수를 대상으로 하도록 규칙을
구성합니다.
C. AWS Glue 작업 실패 이벤트와 일치하는 Amazon EventBridge 규칙을 생성합니다. EventBridge 규칙을 기반으로
Amazon CloudWatch 지표를 정의합니다. 지표를 기반으로 CloudWatch 경보를 설정하여 Amazon Simple 알림
서비스(Amazon SNS) 주제에 알림을 보냅니다.
D. AWS Glue 작업에 대한 Amazon CloudWatch Logs 로그 그룹을 구성합니다. 로그 그룹의 새 로그 생성 이벤트와
일치하도록 Amazon EventBridge 규칙을 생성합니다. Amazon Simple Notification Service(Amazon
SNS) 주제에 알림을 보내도록 규칙을 구성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 241 ===
문제: 한 회사는 AWS Glue Apache Spark 작업을 사용하여 ETL(추출, 변환 및 로드) 워크로드를 처리합니다. 회사는 모든 AWS
Glue 작업에 대한 로깅 및 모니터링을 활성화했습니다. AWS Glue 작업 중 하나가 실패하기 시작합니다. 데이터 엔지니어는 오류를 조사하고
작업 내의 모든 개별 단계에 대한 측정항목을 조사하려고 합니다. 데이터 엔지니어는 어떻게 단계 측정항목에 액세스할 수 있나요?

답변 목록:
A. Spark UI에서 AWS Glue 작업 및 단계 세부 정보를 검토하세요.
B. Amazon CloudWatch에서 AWS Glue 작업 및 단계 지표를 검사합니다.
C. AWS CloudTrail 로그에서 AWS Glue 작업 및 단계 로그를 검사합니다.
D. 작업에 대한 통찰력 실행 기능을 사용하여 AWS Glue 작업 및 단계 세부 정보를 검사합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 242 ===
문제: 데이터 엔지니어는 Amazon Athena에 있는 고도로 분할된 테이블에서 쿼리 성능이 느린 것을 발견했습니다. 테이블에는 지난 5년간의 일일
데이터가 날짜별로 구분되어 포함되어 있습니다. 데이터 엔지니어는 쿼리 성능을 향상하고 파티션 관리를 자동화하려고 합니다. 어떤 솔루션이 이러한
요구 사항을 충족합니까?

답변 목록:
A. 매일 실행되는 AWS Lambda 함수를 사용하십시오. 매일의 데이터에 대해 AWS Glue에서 새 파티션을 수동으로 생성하도록 기능을
구성합니다.
B. Athena에서 파티션 프로젝션을 사용합니다. 5년 전부터 현재까지의 날짜 범위를 사용하여 테이블 속성을 구성합니다.
C. 분할 스키마를 일일 단위에서 월 단위 단위로 변경하여 파티션 수를 줄입니다.
D. 더 많은 컴퓨팅 리소스를 할당하여 Athena 쿼리의 처리 용량을 늘립니다.

정답: Suggested Answer:
B

==================================================

=== 문제 243 ===
문제: 데이터 엔지니어는 Apache Iceberg 프레임워크를 사용하여 100TB의 데이터가 포함된 데이터 레이크를 구축하고 있습니다. 데이터
엔지니어는 Iceberg 프레임워크를 사용하는 AWS Glue Apache Spark 작업을 실행하려고 합니다. 이러한 요구 사항을 충족하려면
어떤 단계 조합이 필요합니까? (2개를 선택하세요.) [] []

답변 목록:
A. AWS Glue 작업에 대해 --conf라는 키를 생성합니다. --datalake-formats 작업 매개변수의 값으로 Iceberg를
설정합니다.
B. -extra-jars 작업 매개변수를 사용하여 특정 버전의 Iceberg에 대한 경로를 지정합니다. Iceberg를 datalake-
formats 작업 매개변수의 값으로 설정합니다.
C. --datalake-formats 작업 매개변수의 값으로 Iceberg를 설정합니다.
D. --enable-auto-scaling 매개변수를 true로 설정합니다.
E. --job-bookmark-option: job-bookmark-enable 파라미터를 AWS Glue 작업에 추가합니다.

정답: Suggested Answer:
BC

==================================================

=== 문제 244 ===
문제: 데이터 엔지니어가 AWS Glue Apache Spark 추출, 변환 및 로드(ETL) 작업을 구성하고 있습니다. 작업에는 두 개의 크고 동일한
크기의 DataFrame의 정렬-병합 조인이 포함되어 있습니다. 다음 오류로 인해 작업이 실패합니다. 장치에 남은 공간이 없습니다. 어떤
솔루션으로 오류를 해결할 수 있나요? [] []

답변 목록:
A. AWS Glue Spark 셔플 관리자를 사용합니다.
B. 배포는 작업에 사용할 Amazon Elastic Block Store(Amazon EBS) 볼륨입니다.
C. 작업의 정렬-병합 조인을 브로드캐스트 조인으로 변환합니다.
D. DataFrame을 DynamicFrame으로 변환하고 작업에서 DynamicFrame 조인을 수행합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 245 ===
문제: 회사는 거래를 처리하기 위한 워크플로를 구현해야 합니다. 각 거래는 여러 단계의 검증을 거칩니다. 각 유효성 검사 수준은 이전 유효성 검사
수준에 따라 달라집니다. 워크플로는 24시간 이내에 각 거래를 처리하거나 거부해야 합니다. 워크플로는 총 24시간 미만 동안 실행되어야 합니다.
최소한의 운영 비용으로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. AWS Step Functions에서 표준 워크플로를 생성합니다. 유효성 검사 단계가 완료될 때까지 기다리는 콜백 대기 패턴을 구현합니다.
B. AWS Step Functions에서 빠른 워크플로를 생성합니다. 유효성 검사 단계가 완료될 때까지 기다리는 콜백 대기 패턴을 구현합니다.
C. AWS Lambda 함수를 사용하여 워크플로를 구현합니다. Amazon EventBridge를 사용하여 검증 단계를 호출합니다.
D. Amazon Managed Workflows for Apache Airflow(Amazon MWAA)를 사용하여 워크플로를 구현합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 246 ===
문제: 데이터 엔지니어는 거의 동시에 시작되는 다수의 AWS Glue 작업을 구성합니다. 모든 작업은 동일한 VPC의 동일한 서브넷에서 1시간 미만
동안 실행됩니다. 모든 AWS Glue 작업은 G1.X 작업자 유형에서 실행됩니다. 일부 작업은 때때로 다음 오류와 함께 실패합니다. "지정된
서브넷에 요청을 충족할 수 있는 여유 주소가 충분하지 않습니다." 오류의 근본 원인은 무엇입니까? [] []

답변 목록:
A. 서브넷에 IP 주소가 충분하지 않습니다.
B. G1.X 작업자 유형은 서브넷에 액세스할 수 없습니다.
C. AWS Glue에는 서브넷에 추가 IP 주소를 추가할 수 있는 올바른 IAM 권한이 없습니다.
D. VPC에 IP 주소가 충분하지 않습니다.

정답: Suggested Answer:
A

==================================================

=== 문제 247 ===
문제: 한 회사는 Amazon EMR 클러스터에서 매일 밤 Apache Spark 애플리케이션을 실행합니다. 이 회사는 Amazon EC2 인스턴스를
사용하여 EMR 클러스터에 컴퓨팅 용량을 제공합니다. 회사는 Spark 애플리케이션을 클러스터 모드로 배포했습니다. Spark 애플리케이션에서
오류가 발생합니다. 오류에 대한 로그는 애플리케이션의 Spark 드라이버 표준 오류 로그에 저장됩니다. 데이터 엔지니어가 오류를 조사해야
합니다. 데이터 엔지니어는 이 오류 로그를 어디에서 찾을 수 있나요? [] []

답변 목록:
A. 엔지니어는 라이브 클러스터의 웹 UI에 연결하여 YARN ResourceManager 로그를 볼 수 있습니다.
B. 엔지니어는 영구 애플리케이션 UI에 연결하여 Spark UI의 첫 번째 YARN 컨테이너 로그를 볼 수 있습니다.
C. 엔지니어는 Amazon EMR 콘솔에 연결하여 Amazon S3에 보관된 Amazon EMR 단계 로그를 볼 수 있습니다.
D. 엔지니어는 SSH를 사용하여 클러스터의 기본 노드에 연결하여 Spark 기록 서버 로그를 볼 수 있습니다.

정답: Suggested Answer:
C

==================================================

=== 문제 248 ===
문제: 한 회사는 매일 500GB의 청중 및 광고 데이터를 처리하고 AWS Glue 데이터 카탈로그에 등록된 스키마를 사용하여 Amazon S3에
CSV 파일을 저장합니다. 이러한 파일을 Apache Parquet 형식으로 변환하고 S3 버킷에 저장해야 합니다. 이 솔루션은 데이터를 동시에
처리하기 위해 15GiB 메모리 용량을 갖춘 장기 실행 워크플로우와 처음 두 프로세스가 완료된 후에만 시작되는 상관 관계 프로세스가 필요합니다.
최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. Amazon Managed Workflows for Apache Airflow(Amazon MWAA)를 사용하여 AWS Glue를 사용하여
워크플로를 조정합니다. 처음 두 프로세스가 완료된 후 세 번째 프로세스를 시작하도록 AWS Glue를 구성합니다.
B. Amazon EMR을 사용하여 워크플로의 각 프로세스를 실행합니다. 처음 두 프로세스의 완료를 나타내는 메시지를 처리하기 위해 Amazon
Simple Queue Service(Amazon SQS) 대기열을 생성합니다. 세 번째 프로세스를 실행하여 SQS 대기열을 처리하도록 AWS
Lambda 함수를 구성합니다.
C. AWS Glue 워크플로를 사용하여 처음 두 프로세스를 병렬로 실행합니다. 처음 두 프로세스가 완료된 후 세 번째 프로세스가 시작되는지
확인하십시오.
D. AWS Step Functions를 사용하여 여러 AWS Lambda 함수를 사용하는 워크플로를 조정합니다. 처음 두 프로세스가 완료된 후
세 번째 프로세스가 시작되는지 확인하십시오.

정답: Suggested Answer:
C

==================================================

=== 문제 249 ===
문제: 회사는 AWS Organizations의 조직을 사용하여 여러 AWS 계정을 관리합니다. 이 회사는 Amazon Kinesis Data
Streams의 향상된 팬아웃 데이터 스트림을 사용하여 여러 생산자로부터 스트리밍 데이터를 수신합니다. 회사는 계정 A라는 계정에서 데이터
스트림을 실행합니다. 회사는 계정 В라는 계정에서 AWS Lambda 함수를 사용하여 데이터 스트림의 데이터를 처리하려고 합니다. 회사는 계정
A의 데이터 스트림에서 데이터에 액세스할 수 있는 권한이 있는 계정 В에 Lambda 실행 역할을 생성합니다. 이 요구 사항을 충족하기 위해
회사는 어떤 추가 단계를 수행해야 합니까?

답변 목록:
A. 서비스 제어 정책(SCP)을 생성하여 교차 계정 Lambda 실행 역할에 대한 데이터 스트림 읽기 액세스 권한을 부여합니다. SCP를 계정
A에 연결합니다.
B. 교차 계정 Lambda 실행 역할에 대한 읽기 액세스를 허용하려면 데이터 스트림에 리소스 기반 정책을 추가합니다.
C. 서비스 제어 정책(SCP)을 생성하여 교차 계정 Lambda 실행 역할에 대한 데이터 스트림 읽기 액세스 권한을 부여합니다. SCP를 계정
B에 연결합니다.
D. 교차 계정 Lambda 함수에 리소스 기반 정책을 추가하여 함수에 대한 데이터 스트림 읽기 액세스 권한을 부여합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 250 ===
문제: 회사는 Amazon S3 버킷에 있는 데이터를 분석하기 위해 Amazon Athena를 사용해야 합니다. 데이터 엔지니어는 연도, 월, 일에
대해 AWS Glue 테이블 파티션을 구성해야 합니다. 데이터 엔지니어는 데이터의 스키마 변경 사항에 맞게 매일 파티션을 만들어야 합니다. 어떤
솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. AWS Glue DataBrew를 사용하여 AWS Glue 테이블용 파티션을 생성합니다.
B. AWS Lambda 함수를 사용하여 AWS Glue 테이블용 파티션을 생성합니다.
C. AWS Glue 테이블의 파티션 프로젝션 속성을 설정합니다.
D. 설정된 일정에 따라 실행되도록 AWS Glue 크롤러를 구성합니다.

정답: Suggested Answer:
C

==================================================

=== 문제 251 ===
문제: 호텔 관리 회사는 각 호텔로부터 일일 데이터 파일을 받습니다. 회사는 데이터를 AWS에 업로드하려고 합니다. 회사는 Amazon Athena를
사용하여 파일에 액세스할 계획입니다. 회사는 실수로 파일이 삭제되지 않도록 보호해야 합니다. 회사는 온프레미스 서버에서 파일을 완전 관리형
AWS 수집 서비스에 자동으로 전달하는 애플리케이션을 개발할 예정입니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은
무엇입니까? [] []

답변 목록:
A. AWS DataSync를 사용하여 온프레미스 서버에서 Amazon Elastic File System(Amazon EFS)으로 데이터를
복제합니다. AWS Backup에서 자동 백업을 구성합니다.
B. 온프레미스 서버에서 Amazon Kinesis 에이전트를 사용하여 Amazon Data Firehose로 데이터를 보냅니다. 버전 관리가
활성화된 Amazon S3 버킷에 데이터를 저장합니다.
C. AWS Glue 작업을 사용하여 온프레미스 서버의 데이터를 Amazon RDS로 수집합니다. 데이터 보호를 위해 자동 백업을 활성화합니다.
D. 온프레미스 서버에서 자체 관리형 Apache Kafka 에이전트를 사용하여 Amazon Managed Streaming for Apache
Kafka(Amazon MSK)로 데이터를 스트리밍합니다. 버전 관리가 활성화된 Amazon S3 버킷에 데이터를 저장합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 252 ===
문제: 회사에서는 Amazon EMR 클러스터에서 실행되는 Apache Spark 작업을 사용하여 스트리밍 데이터를 처리하려고 합니다. Spark
작업은 Amazon S3 버킷에 데이터를 변환하고 저장합니다. 회사는 분석을 수행하기 위해 Amazon Athena를 사용할 것입니다. 회사는
분석 쿼리를 위해 데이터 형식을 최적화해야 합니다. 가장 짧은 쿼리 시간으로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까? (2개를
선택하세요.) [] []

답변 목록:
A. Avro 형식을 사용하세요. AWS Glue 데이터 카탈로그를 사용하여 스키마 변경 사항을 추적합니다.
B. ORC 형식을 사용합니다. AWS Glue 데이터 카탈로그를 사용하여 스키마 변경 사항을 추적합니다.
C. Apache Parquet 형식을 사용합니다. 외부 Amazon DynamoDB 테이블을 사용하여 스키마 변경 사항을 추적합니다.
D. Apache Parquet 형식을 사용합니다. AWS Glue 데이터 카탈로그를 사용하여 스키마 변경 사항을 추적합니다.
E. ORC 형식을 사용합니다. Amazon S3의 별도 파일에 스키마 정의를 저장합니다.

정답: Suggested Answer:
BD

==================================================

=== 문제 253 ===
문제: 한 회사는 매일 Amazon S3 버킷의 대용량 CSV 파일에 새 데이터를 추가합니다. 파일에는 지난 5년간의 회사 판매 데이터가 포함되어
있습니다. 현재 파일에는 5,000개 이상의 행이 포함되어 있습니다. CSV 파일 구조는 샘플 데이터와 함께 아래에 표시됩니다.

회사는 특정 기간의 데이터를 가져오기 위해 Amazon Athena를 사용하여 CSV 파일에 대한 쿼리를
실행해야 합니다. 이 요구 사항을 가장 비용 효율적으로 충족하는 솔루션은 무엇입니까? [] []

답변 목록:
A. CSV 데이터를 JSON 형식으로 변환하는 Apache Spark 스크립트를 작성합니다. 매일 스크립트를 실행하려면 AWS Glue 작업을
생성하세요. AWS Glue에서 JSON 데이터를 분류합니다. JSON 데이터에 대해 Athena 쿼리를 실행합니다.
B. 접두사를 사용하여 S3 버킷의 데이터를 분할합니다. SALE_DATE 열을 사용하여 매일 파티션을 만듭니다. AWS Glue에서 데이터를
분류하고 파티션이 추가되었는지 확인합니다. 새 파티션을 사용하도록 Athena 쿼리를 업데이트합니다.
C. Amazon EMR 클러스터를 시작합니다. AWS Glue Data Catalog를 기본 Apache Hive 메타스토어로 지정합니다.
Trino에서 Presto를 사용하여 데이터에 대한 쿼리를 실행하세요.
D. Amazon RDS 데이터베이스를 생성합니다. CSV 파일의 스키마와 일치하는 SALES라는 테이블을 만듭니다. SALE_DATE 열에
인덱스를 만듭니다. CSV 데이터를 RDS 데이터베이스에 로드하는 AWS Lambda 함수를 생성합니다. S3 이벤트 알림을 사용하여
Lambda 함수를 호출합니다.

정답: Suggested Answer:
B

==================================================

=== 문제 254 ===
문제: 데이터 엔지니어는 Amazon Redshift 테이블의 스키마 변경 사항을 추적하기 위해 데이터 카탈로그 솔루션을 구현해야 합니다. 어떤
솔루션이 이러한 요구 사항을 충족합니까? [] []

답변 목록:
A. JDBC(Java Database Connectivity) 드라이버를 사용하여 테이블에서 매일 실행되도록 AWS Glue 크롤러를
예약합니다. AWS Glue 데이터 카탈로그를 업데이트하도록 크롤러를 구성합니다.
B. AWS DataSync를 사용하여 테이블 메타데이터를 AWS Glue 데이터 카탈로그에 기록합니다. AWS Glue 크롤러를 사용하여 매일
데이터 카탈로그를 업데이트하세요.
C. AWS Schema Conversion Tool(AWS SCT)을 사용하여 테이블 메타데이터를 Apache Hive 메타스토어에
기록합니다. Amazon EventBridge Scheduler를 사용하여 매일 메타스토어를 업데이트하십시오.
D. 테이블에서 매일 실행되도록 AWS Glue 크롤러를 예약합니다. Apache Hive 메타스토어를 업데이트하도록 크롤러를 구성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 255 ===
문제: 데이터 엔지니어는 여러 Amazon S3 버킷의 데이터 레이크에 저장된 민감한 정보를 감지하는 솔루션을 구축하고 있습니다. 솔루션은 독점 데이터
형식의 개인 식별 정보(PII)를 탐지해야 합니다. 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?

답변 목록:
A. 특정 패턴으로 AWS Glue Detect PII 변환을 사용합니다.
B. 관리형 데이터 식별자와 함께 Amazon Made를 사용하세요.
C. 사용자 지정 정규식과 함께 AWS Lambda 함수를 사용합니다.
D. SQL 쿼리와 함께 Amazon Athena를 사용하여 사용자 지정 형식을 일치시킵니다.

정답: Suggested Answer:
A

==================================================

=== 문제 256 ===
문제: 데이터 엔지니어가 Amazon DynamoDB 테이블에 메타데이터를 저장하는 새로운 데이터 파이프라인을 구축하고 있습니다. 데이터 엔지니어는
지정된 기간보다 오래된 모든 항목이 매일 DynamoDB 테이블에서 제거되는지 확인해야 합니다. 최소한의 구성 노력으로 이 요구 사항을 충족하는
솔루션은 무엇입니까? [] []

답변 목록:
A. DynamoDB 테이블에서 DynamoDB TTL을 활성화합니다. 애플리케이션 소스 코드를 조정하여 TTL 속성을 적절하게 설정하세요.
B. 일일 cron 표현식을 사용하여 AWS Lambda 함수를 트리거하여 지정된 기간보다 오래된 항목을 삭제하는 Amazon
EventBridge 규칙을 생성합니다.
C. 지정된 기간보다 오래된 항목을 삭제하는 수명 주기 구성을 DynamoDB 테이블에 추가합니다.
D. 데이터 수정에 반응하는 AWS Lambda 함수가 있는 DynamoDB 스트림을 생성합니다. 지정된 기간보다 오래된 항목을 삭제하도록
Lambda 함수를 구성합니다.

정답: Suggested Answer:
A

==================================================

=== 문제 257 ===
문제: 차량 공유 회사는 Amazon DynamoDB 테이블에 모든 차량 서비스 기록을 저장합니다. 테이블에는 다음 열과 값 유형이 포함됩니다.

테이블에는 현재 수십억 개의 항목이 포함되어 있습니다. 테이블은 RideID로 분할되었으며
TripStartTime을 정렬 키로 사용합니다. 회사는 이 데이터를 사용하여 RideStatus를 기반으로 각 운전자가 완료한 라이딩을
운전자가 볼 수 있는 기능을 제공하는 개인 인터페이스를 구축하려고 합니다. 솔루션은 전체 테이블을 스캔하지 않고 필요한 데이터에 액세스해야
합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. DriverID에 LSI(로컬 보조 인덱스)를 생성합니다.
B. RiderID를 파티션 키로, RideStatus를 정렬 키로 사용하는 글로벌 보조 인덱스(GSI)를 생성합니다.
C. DriverID를 파티션 키로, RideStatus를 정렬 키로 사용하는 GSI(글로벌 보조 인덱스)를 생성합니다.
D. RiderID 및 RideStatus를 사용하는 필터 표현식을 만듭니다.

정답: Suggested Answer:
C

==================================================

=== 문제 258 ===
문제: 회사는 구독자에 대한 정보를 Amazon S3 버킷에 저장합니다. 회사는 구독자가 구독을 종료할 때마다 분석을 실행합니다. 이 회사는 AWS
Lambda 함수를 사용하여 분석을 수행함으로써 S3 버킷의 이벤트에 응답합니다. Lambda 함수는 S3 버킷에서 데이터를 정리하고 AWS
Glue 워크플로를 시작합니다. Lambda 함수에는 128MB의 메모리와 512MB의 임시 스토리지가 있습니다. Lambda 함수의 제한
시간은 15초입니다. 세 가지 기능 모두 실행이 성공적으로 완료되었습니다. 그러나 CPU 사용량이 100%에 가까운 경우가 많아 성능이
저하됩니다. 회사는 기능의 성능을 향상시키고 파이프라인의 전체 실행 시간을 줄이고 싶어합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?

답변 목록:
A. Lambda 함수의 메모리를 512MB로 늘립니다.
B. 최대 재시도 횟수 설정을 사용하여 재시도 횟수를 늘리십시오.
C. 회사의 VPC에서 실행되도록 Lambda 함수를 구성합니다.
D. Lambda 함수의 제한 시간 값을 15초에서 30초로 늘립니다.

정답: Suggested Answer:
A

==================================================

=== 문제 259 ===
문제: 회사는 Amazon Kinesis Data Streams의 데이터 스트림을 사용하여 여러 소스에서 트랜잭션 데이터를 수집합니다. 이 회사는
AWS Glue ETL(추출, 변환 및 로드) 파이프라인을 사용하여 스트림의 데이터에서 이상값을 찾습니다. 워크플로가 이상값을 감지하면
Amazon Simple Notification Service(Amazon SNS) 주제에 알림을 보냅니다. SNS 주제는 이상값에 대한 로그를
검색하는 두 번째 워크플로를 시작하고 해당 로그를 Amazon S3 버킷에 저장합니다. 데이터 스트림이 대량의 데이터를 처리하는 동안 회사에서는
SNS 주제에 대한 알림이 지연되는 현상을 경험합니다. 회사는 Amazon CloudWatch 로그를 조사할 때 트래픽이 높을 때
Glue.driver.BlockManager.disk.diskSpaceUsed_MB 지표의 값이 높다는 것을 발견했습니다. 회사는 이 문제를
해결해야 합니다. 최소한의 운영 노력으로 이 요구 사항을 충족할 수 있는 솔루션은 무엇입니까?

답변 목록:
A. AWS Glue ETL 작업에서 데이터 처리 장치(DPU) 수를 늘립니다.
B. AWS Glue 대신 Amazon EMR을 사용하여 ETL 파이프라인을 관리합니다.
C. AWS Step Functions를 사용하여 병렬 워크플로 상태를 조정합니다.
D. AWS Glue ETL 작업에 대한 자동 조정을 활성화합니다.

정답: Suggested Answer:
D

==================================================

=== 문제 260 ===
문제: 회사에는 Amazon Redshift 클러스터에 대해 여러 SQL 쿼리를 순차적으로 실행하는 데이터 처리 파이프라인이 있습니다. 회사가 두 번째
회사와 합병됩니다. 원래 회사는 판매 수익 데이터를 집계하는 쿼리를 수정하여 두 회사의 판매 테이블을 조인합니다. 첫 번째 회사의 판매 테이블
이름은 Table S1입니다. 두 번째 회사의 판매 테이블 이름은 Table S2입니다. 테이블 S1에는 100억 개의 레코드가 포함되어
있습니다. 테이블 S2에는 9억 개의 레코드가 포함되어 있습니다. 수정 후 쿼리 속도가 느려집니다. 데이터 엔지니어는 쿼리 성능을 개선해야
합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까? (2개를 선택하세요.)

답변 목록:
A. 두 판매 테이블 모두에 KEY 배포 스타일을 사용합니다. 조인에 사용할 낮은 카디널리티 열을 선택합니다.
B. 두 판매 테이블 모두에 KEY 배포 스타일을 사용합니다. 조인에 사용할 높은 카디널리티 열을 선택합니다.
C. 표 S1에는 EVEN 분포 스타일을 사용합니다. 표 S2에는 ALL 분포 스타일을 사용합니다.
D. Amazon Redshift 쿼리 최적화 프로그램을 사용하여 구현할 최적화를 검토하고 선택하세요.
E. Amazon Redshift Advisor를 사용하여 구현할 최적화를 검토하고 선택하십시오.

정답: Suggested Answer:
BE

==================================================

=== 문제 261 ===
문제: 게임 회사는 AWS Glue를 사용하여 실시간 스트리밍 데이터를 위해 Apache Iceberg 테이블에서 읽기 및 쓰기 작업을 수행합니다.
Iceberg 테이블의 데이터는 Apache Parquet 형식입니다. 회사의 쿼리 성능이 저하되고 있습니다. 쿼리 성능을 향상시키는 솔루션은
무엇입니까? (2개를 선택하세요.)

답변 목록:
A. AWS Glue 데이터 카탈로그를 사용하여 일정에 따라 Iceberg 테이블에 대한 열 수준 통계를 생성합니다.
B. AWS Glue 데이터 카탈로그를 사용하여 Iceberg 테이블을 자동으로 압축합니다.
C. AWS Glue 데이터 카탈로그를 사용하여 Iceberg 테이블의 인덱스를 자동으로 최적화합니다.
D. AWS Glue 데이터 카탈로그를 사용하여 Iceberg 테이블에 대해 쓰기 중 복사를 활성화합니다.
E. AWS Glue 데이터 카탈로그를 사용하여 Iceberg 테이블에 대한 뷰를 생성합니다.

정답: Suggested Answer:
BD

==================================================

현재글[AWS]Data Engineer Associate DEA-C01 dump 최신문제 1~261 한글 번역

IT 버스

IT와 관련된 세상 모든 것 AWS 시험 정보 제공으로 시작하는 블로그

Today :
Yesterday :

IT 버스

[AWS]Data Engineer Associate DEA-C01 dump 최신문제 1~261 한글 번역

'AWS 시험정보/Data Engineer Associate'의 다른글

티스토리툴바

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31