스파크 컨텍스트 생성시 유의점

BigData 2020. 6. 2. 10:16

자바의 경우 자바8의 람다식을 사용하는 경우를 제외하고는 함수를 직접 전달할 수 있는 방법이 없다.

스파크가 제공하는 Function 인터페이스를 구현한 클래스를 정의하고, 이 클래스의 인스턴스를 만들어서 전달해야 한다.

단, 이때 Function 인터페이스를 구현한 클래스를 드라이버 프로그램 클래스의 내부 클래스로 정의하면 직렬화 문제 발생

----------------------------------------------------------------------------------------------------------------------------------

직렬화란?

- 객체를 바이트 스트림으로 인코딩 하고, 인코딩 된 바이트 스트림으로부터 객체를 복원하는것,

직렬화 - 객체를 바이트 스트림으로 인코딩

역직렬화 - 바이트 스트림을 객체로 인코딩

클래스의 인스턴스가 직렬화되기 위해선느 Serializable 인터페이스 구현 필요.

마커 인터페이스임

-----------------------------------------------------------------------------------------------------------------------------------

스파크에서는 키와 값을 가진 데이터를 튜플로 표현, 자바에는 튜플없음,그래서?

scala.Tuple2 를 사용

-----------------------------------------------------------------------------------------------------------------------------------

스파크 컨텍스트를 생성할때는 클러스터 마스터정보, 애플리케이션 이름(setAppName)은 필수 정보

-----------------------------------------------------------------------------------------------------------------------------------

Cal-D Cal-D