데이터 엔지니어링

* 구글링을 하다보면 --zookeeper가 있고 --bootstrap-server가 있는데, kafka의 최신 버전에서는 --zookeeper옵션이 사용되지 않으므로 --bootstrap-server 옵션을 사용하여 kafka브로커에 직접 연결해야 한다. 1. 토픽 조회 kakfa-topic --bootstrap-server localhost:9092 --list 2. 토픽 삭제 kafka-topics --delete --bootstrap-server localhost:9092 --topic --delete명령어 이후 다시 조회를 해보면 정상적으로 삭제가 되어야 하지만? 왜 그대로 있는거지... 심지어 아무런 에러메세지도 보여주지 않았다. 많은 구글링을 통해서 server.properties 파일을 변..
더보기 문제는 바야흐로 7개월 전... kafka와 elastic을 활용한 모니터링 대시보드를 기획하여 구축하였다. 관련 기술들에 아무런 배경지식이 없이 시작한 나는 뚱땅뚱땅 구축 성공처럼 보였으나 문제가 있었다. Kibana를 통해 시각화를 하려고 하니 날짜 데이터가 이상하게 조회가 되는 것이 아닌가! 문제의 원인을 파악하고,, 다시 개념부터 살펴보고,, 삽질의 삽질을 거쳐 드디어 해결하였다. 중간에 다른 업무로 놓은 시기도 있었지만 장장 4개월만에 해결한거라 감회가 새롭다^^ 물론 아주 기본적인, 다른 사람들은 처음부터 잘 알고 있는 부분일 수도 있지만 나와 같이 헤매다 이쪽으로 오게 되신 분 들도 계실테니 삽질로그를 남겨보겠다. 문제 상황 SoureDB의 "2024-01-08" date값이 '197..
1. 자바 설치 및 환경설정 하기 - 이미 jdk가 준비되신 분은 2번으로 가세욥/ 그리고 elasticsearch의 버전에 따라 필요하지 않을 수 있습니다. sudo yum update sudo yum install java-1.8.0-openjdk-devel.x86_64 java -version which javac ls -l /usr/bin/javac readlink /etc/alternatives/javac # 자바가 설치된 경로 # sudo vi etc/profile # 맨 밑에 추가 (Shift + g) export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.382.b05-1.amzn2.0.1.x86_64 export PATH=$JAVE_HOME/bi..
1. Java 설치 확인하기 PySpark는 Java를 실행하기 때문에, Java가 설치되어 있는지 확인합니다. 설치되어 있지 않다면, Oracle Java 다운로드 페이지에서 Java를 다운로드하고 설치합니다. 설치 후, 명령 프롬프트나 PowerShell에서 java -version 명령어를 입력하여 설치된 Java 버전을 확인합니다. java 환경변수를 등록합니다. 2. Apache Spark 다운로드하기 Spark Downloads 페이지에서 원하는 버전의 Spark를 다운로드합니다. 여기에서는 spark-3.3.2-bin-hadoop3.2.tgz 파일을 사용합니다. 바로 다운을 원하면 https://dlcdn.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-had..
도커 컨테이너의 상황을 크게 세가지로 볼 수 있는데 아직 없는 상황과 죽은(멈춘)상황 살아있는 상황 각 상황마다 shell에서 컨테이너를 부르는 명령어가 다르다. 처음 생성할 때 docker run -it --name docker_name ubuntu run 명령어를 통해 처음 컨테이너를 입성하는 것이고 -it 옵션을 통해 foreground에서 컨테이너와 유저 간 command line으로 소통하게 하고 ( i:입출력, t:터미널 ) --name 옵션을 줘서 컨테이너 이름을 지정할 수 있고 (안하면 자동으로 아무이름 지어줌) ubuntu 이미지를 붙여줄 것이다. 현재 돌아가고 있는 컨테이너 확인 docker ps -a 죽은 상황 docker start -i docker_name 살은 상황 docker ..
도커를 사용하기 위해 dockerhub에서 ubuntu 공식 이미지를 pull해오려 했다. 그런데 retrying엄청하더니 돌아온 말은 local error: tls: bad record MAC 에러,,, 이게 뭔일이야 하고 도커 세팅 파일도 건드려보고, windows 기능도 건드리고, 작업관리자도 봤다가 방화벽까지 내려봤는데 실패 결론을 바로 말씀드리자면 LAN의 문제였다. 정확한 원인은 모르겠다만 나는 인터넷을 KT를 사용하고 있었고 LAN선을 꼽고 시도했을때 계속 실패를 했었는데 LAN선을 뽑고 와이파이로 연결을 해서 pull을 하니 바로 아주 간단히 성공이 됐다^^ 와이파이도 KT공유기 인뎀,,, LAN에서 뭐 다른 장치가 있었는지 KT에서 이런 이슈가 종종 있었다고 하니 혹시 이러한 문제를 겪고..
도커를 써야하는 이유 원하는 개발 환경을 파일에 저장해두면, 어느 머신에서든 해당 환경을 시뮬레이션 해줌 이러한 환경들은 각기 독립적으로 존재하기 때문에 모듈식으로 관리 가능함 도커 로그인 회원가입 : https://hub.docker.com/ docker login 우분투 이미지 pull 도커허브에서 원하는 환경을 검색해서 가져오면 된다. docker pull ubuntu 우분투 기반 컨테이너 실행 docker run -it --name de_base ubuntu:20.04 # -it : 컨테이너의 터미널에 접근 # --name : 컨테이너 이름 패키지 관리자 업데이트 apt update -y # -y : 업데이트 진행여부를 물어볼 때 y를 자동으로 입력 apt upgrade -y 필요 서비스 다운로드..
seojeon9
'데이터 엔지니어링' 카테고리의 글 목록