-
스파크 컨텍스트 생성시 유의점BigData 2020. 6. 2. 10:16
자바의 경우 자바8의 람다식을 사용하는 경우를 제외하고는 함수를 직접 전달할 수 있는 방법이 없다.
스파크가 제공하는 Function 인터페이스를 구현한 클래스를 정의하고, 이 클래스의 인스턴스를 만들어서 전달해야 한다.
단, 이때 Function 인터페이스를 구현한 클래스를 드라이버 프로그램 클래스의 내부 클래스로 정의하면 직렬화 문제 발생
----------------------------------------------------------------------------------------------------------------------------------
직렬화란?
- 객체를 바이트 스트림으로 인코딩 하고, 인코딩 된 바이트 스트림으로부터 객체를 복원하는것,
직렬화 - 객체를 바이트 스트림으로 인코딩
역직렬화 - 바이트 스트림을 객체로 인코딩
클래스의 인스턴스가 직렬화되기 위해선느 Serializable 인터페이스 구현 필요.
마커 인터페이스임
-----------------------------------------------------------------------------------------------------------------------------------
스파크에서는 키와 값을 가진 데이터를 튜플로 표현, 자바에는 튜플없음,그래서?
scala.Tuple2 를 사용
-----------------------------------------------------------------------------------------------------------------------------------
스파크 컨텍스트를 생성할때는 클러스터 마스터정보, 애플리케이션 이름(setAppName)은 필수 정보
-----------------------------------------------------------------------------------------------------------------------------------
'BigData' 카테고리의 다른 글
Yarn (0) 2020.06.03 스파크 컨텍스트 와 Executor (0) 2020.06.02 RDD 자세히 (0) 2020.06.01 SparkContext, RDD 개념만 (0) 2020.06.01 Spark 연산 (0) 2020.05.18