[Kudu] pyspark with kudu

python 3.8
kudu 1.10.0

1. pyspark Installation

$ pip install pyspark==2.3.3

//https://mvnrepository.com/artifact/org.apache.kudu/kudu-spark2 에서 kudu버전에 맞는 jar 다운로드 후 로컬에 저장
$ wget https://repo1.maven.org/maven2/org/apache/kudu/kudu-spark2_2.11/1.10.0/kudu-spark2_2.11-1.10.0.jar

2. read & write with spark


from pyspark.sql import *

spark = SparkSession.builder.appName("KuduExample").getOrCreate()

## read from kudu
df = spark.read.format("org.apache.kudu.spark.kudu") \
        .option('kudu.master', "${kudu_master}") \
        .option('kudu.table', "${kudu_table}") \
        .load()



## write to kudu
sourceDf.write.format('org.apache.kudu.spark.kudu') \
        .option('kudu.master', "${kudu_master}") \
        .option('kudu.table', "${kudu_table}") \
        .mode("Append") \
        .save()

3. execution

//local
$SPARK_HOME/spark-submit --master local --jars ./libs/kudu-spark2_2.11-1.10.0.jar ./app/kudu_ex.py

// On Yarn
$SPARK_HOME/spark-submit --master yarn --deploy-mode cluster --jars ./libs/kudu-spark2_2.11-1.10.0.jar ./app/kudu_ex.py

저작자표시

'Hadoop > Kudu' 카테고리의 다른 글

[Kudu] FlushMode의 종류 및 주의점 (0)	2020.10.26
[Kudu]Kudu와 Presto 그리고 unix_timestamp에 대해 이해하기 (0)	2020.03.09
[Kudu] 시간 기준의 Range Partition 시 주의점(timezone, UTC) (0)	2020.02.12
[Kudu] Encoding & Compression (0)	2020.02.12
[Kudu] Source 를 이용한 설치 (0)	2020.02.12

${Louis.dev}

[Kudu] pyspark with kudu

1. pyspark Installation

2. read & write with spark

3. execution

'Hadoop > Kudu' 카테고리의 다른 글

티스토리툴바

[Kudu] pyspark with kudu

1. pyspark Installation

2. read & write with spark

3. execution

'Hadoop > Kudu' 카테고리의 다른 글

'Hadoop/Kudu' Related Articles

티스토리툴바