ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 스파크 컨텍스트 생성시 유의점
    BigData 2020. 6. 2. 10:16

    자바의 경우 자바8의 람다식을 사용하는 경우를 제외하고는 함수를 직접 전달할 수 있는 방법이 없다.

     

    스파크가 제공하는 Function 인터페이스를 구현한 클래스를 정의하고, 이 클래스의 인스턴스를 만들어서 전달해야 한다.

     

    단, 이때 Function 인터페이스를 구현한 클래스를 드라이버 프로그램 클래스의 내부 클래스로 정의하면 직렬화 문제 발생

    ----------------------------------------------------------------------------------------------------------------------------------

    직렬화란?

     - 객체를 바이트 스트림으로 인코딩 하고, 인코딩 된 바이트 스트림으로부터 객체를 복원하는것,

       직렬화 - 객체를 바이트 스트림으로 인코딩

    역직렬화 - 바이트 스트림을 객체로 인코딩

     

    클래스의 인스턴스가 직렬화되기 위해선느 Serializable 인터페이스 구현 필요.

    마커 인터페이스임

     

    -----------------------------------------------------------------------------------------------------------------------------------

     

    스파크에서는 키와 값을 가진 데이터를 튜플로 표현, 자바에는 튜플없음,그래서?

    scala.Tuple2 를 사용

    -----------------------------------------------------------------------------------------------------------------------------------

     

    스파크 컨텍스트를 생성할때는 클러스터 마스터정보, 애플리케이션 이름(setAppName)은 필수 정보 

     

    -----------------------------------------------------------------------------------------------------------------------------------

     

     

     

     

    'BigData' 카테고리의 다른 글

    Yarn  (0) 2020.06.03
    스파크 컨텍스트 와 Executor  (0) 2020.06.02
    RDD 자세히  (0) 2020.06.01
    SparkContext, RDD 개념만  (0) 2020.06.01
    Spark 연산  (0) 2020.05.18
Designed by Tistory.