데이터 엔지니어링/Apache

* 구글링을 하다보면 --zookeeper가 있고 --bootstrap-server가 있는데, kafka의 최신 버전에서는 --zookeeper옵션이 사용되지 않으므로 --bootstrap-server 옵션을 사용하여 kafka브로커에 직접 연결해야 한다. 1. 토픽 조회 kakfa-topic --bootstrap-server localhost:9092 --list 2. 토픽 삭제 kafka-topics --delete --bootstrap-server localhost:9092 --topic --delete명령어 이후 다시 조회를 해보면 정상적으로 삭제가 되어야 하지만? 왜 그대로 있는거지... 심지어 아무런 에러메세지도 보여주지 않았다. 많은 구글링을 통해서 server.properties 파일을 변..
더보기 문제는 바야흐로 7개월 전... kafka와 elastic을 활용한 모니터링 대시보드를 기획하여 구축하였다. 관련 기술들에 아무런 배경지식이 없이 시작한 나는 뚱땅뚱땅 구축 성공처럼 보였으나 문제가 있었다. Kibana를 통해 시각화를 하려고 하니 날짜 데이터가 이상하게 조회가 되는 것이 아닌가! 문제의 원인을 파악하고,, 다시 개념부터 살펴보고,, 삽질의 삽질을 거쳐 드디어 해결하였다. 중간에 다른 업무로 놓은 시기도 있었지만 장장 4개월만에 해결한거라 감회가 새롭다^^ 물론 아주 기본적인, 다른 사람들은 처음부터 잘 알고 있는 부분일 수도 있지만 나와 같이 헤매다 이쪽으로 오게 되신 분 들도 계실테니 삽질로그를 남겨보겠다. 문제 상황 SoureDB의 "2024-01-08" date값이 '197..
1. Java 설치 확인하기 PySpark는 Java를 실행하기 때문에, Java가 설치되어 있는지 확인합니다. 설치되어 있지 않다면, Oracle Java 다운로드 페이지에서 Java를 다운로드하고 설치합니다. 설치 후, 명령 프롬프트나 PowerShell에서 java -version 명령어를 입력하여 설치된 Java 버전을 확인합니다. java 환경변수를 등록합니다. 2. Apache Spark 다운로드하기 Spark Downloads 페이지에서 원하는 버전의 Spark를 다운로드합니다. 여기에서는 spark-3.3.2-bin-hadoop3.2.tgz 파일을 사용합니다. 바로 다운을 원하면 https://dlcdn.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-had..
seojeon9
'데이터 엔지니어링/Apache' 카테고리의 글 목록