1. Java 설치 확인하기
- PySpark는 Java를 실행하기 때문에, Java가 설치되어 있는지 확인합니다. 설치되어 있지 않다면, Oracle Java 다운로드 페이지에서 Java를 다운로드하고 설치합니다.
- 설치 후, 명령 프롬프트나 PowerShell에서 java -version 명령어를 입력하여 설치된 Java 버전을 확인합니다.
- java 환경변수를 등록합니다.
2. Apache Spark 다운로드하기
- Spark Downloads 페이지에서 원하는 버전의 Spark를 다운로드합니다. 여기에서는 spark-3.3.2-bin-hadoop3.2.tgz 파일을 사용합니다.
- 바로 다운을 원하면 https://dlcdn.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz 클릭
3. Spark 압축 해제하기
- 다운로드한 파일을 원하는 위치에 이동해서 터미널을 통해 압축 해제 합니다. C:\Program Files\spark-3.3.2-bin-hadoop3 디렉토리를 사용합니다.
tar xzvf spark-3.3.2-bin-hadoop3.tgz
4. Spark 설정하기
- 새로운 환경 변수 SPARK_HOME을 생성하고, 그 값으로 Spark가 설치된 경로 (C:\Program Files\spark-3.3.2-bin-hadoop3)를 지정합니다.
5. Haddop 설정하기
- Windows에서 Spark가 Hadoop 환경을 인지 할 수 있도록 winutils.exe 파일을 다운로드 하고 적정한 위치에 이동한 후 HADDOP_HOME 환경 변수를 설정합니다.
- cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows (github.com)
- 다운로드 받은 spark파일의 haddop버전과 같은 winuntils.ex 파일을 다운로드
- Parh 환경 변수에 아래와 같이 추가합니다.
> cmd나 powershell에서 spark-shell을 실행해보면 정상적으로 작동되는걸 확인할 수 있습니다?
728x90
'데이터 엔지니어링 > Apache' 카테고리의 다른 글
[Kafka] Topic이 delete 되지 않을 때 - 기본 다루기 (0) | 2024.03.10 |
---|---|
[Kafka] Kafka Connect 날짜 변환 문제 해결 - Avro / Epoch (0) | 2024.03.07 |