Yarn (1) 썸네일형 리스트형 [Spark] SparkContext.addFile 과 --files 의 차이점 (Spark on YARN) Spark 에서 외부데이터를 불러와 처리할 때 코드 상에 SparkContext.addFile 메소드를 호출하거나, spark-submit시 --files 파라미터를 이용하여 외부데이터를 읽어와 처리할 수 있다. 이때 두가지 방법이 서로 동작하는 방식이 달라 YARN에 cluster 모드로 실행시 파일을 읽는 방법이 달라지는데, 이에 대해 정리해보고자 한다. SparkContext.addFile 공식 문서에 따르면 local file, HDFS 뿐 아니라 HTTP, HTTPS, FTP까지 지정하여 사용할 수 있다고 한다. //add file SparkSession spark = SparkSession.builder().getOrCreate(); spark.sparkContext().addFile("htt.. 이전 1 다음