BigData
Spark 연산
Cal-D
2020. 5. 18. 16:31
Transformation
어떤 RDD에 변형을 가해 새로운 RDD를 생성하는 연산
스파크는 rdd와 rdd1의 생성 과정을 따로 기록해뒀다가 메모리를 이용한 데이터 처리 과정에서 일부 데이터 유 실이 발생하면 앞서 기록해둔 생성 과정을 다시 수행해서 데이터를 복구함
Transformation이 가지고 있는 또 다른 중요한 특징은 Lazy 실행 방식이다. 최종실행, 즉 Action 실행 전까지 최적의 방 법을 찾는다.
실제로 RDD 외의 Dataframe, Dataset이라는 새로운 데이터 모델이 등장하게 된 배경에는 최적화 기능을 더 강화하기 위한 목적도 매우 큰 부분을 차지하고 있다.
Action
연산의 결과로 RDD가 아닌 다른 값을 반환하거나 아예 반환하지 않는 연산을 의미, API 문서에서 메서드의 반환 타입을 확인해 보면 Action 과 Transformation 구분 가능.