개발새발 일기장

2025.04.23· 데이터 엔지니어링/Python

polars는 최근 인기를 끌고 있는 빠르고 메모리 효율적인 DataFrame 라이브러리 🔷 Polars란?언어: Rust로 구현된 고성능 DataFrame 라이브러리. Python, Rust, Node.js 등에서 사용할 수 있음.처리 방식: Lazy Execution (게으른 실행)과 Eager Execution(즉시 실행) 모두 지원.목표: 빠르고, 병렬 처리 잘하고, 메모리 적게 쓰는 것.🔍 Polars vs Pandas 비교항목PandasPolars구현 언어Python + CRust (Python 바인딩)실행 방식Eager onlyEager + Lazy성능중간 (싱글 스레드)매우 빠름 (멀티 스레드)메모리 사용상대적으로 많음적고 효율적대용량 데이터처리 어려움 (Out-of-Memory 이슈)..

AWS GameDay를 참석하고...

2024.06.26· 후기.zip

AWS GameDay란 AWS 아키텍처에서 생길 수 있는 다양한 문제들을 게임화 된 가상의 환경에서 팀 별로 직접 해결하는 과정을 통해 AWS에 대한 이해를 높일 수 있는 인터랙티브 콘텐츠이다.정답은 없으며, 주어진 상황을 다양한 방법으로 대응하고 문제를 해결하여 얻은 포인트로 우승팀이 선정된다.강의형 워크숍과는 달리 직접 서비스를 설정하고 실제적 경험을 통해 AWS 아키텍처 패션 및 모범사례를 배울 수 있는 기회이다.시나리오가 제시되고 약 4시간가량 팀별로 문제를 인지하고 원인을 파악하여 대응을 하게 된다. GameDay 이전에 두 번의 오프라인 교육을 마치고 참석하게 되었다.교육을 통해 AWS 코어 서비스에 대한 이해를 하고 어떤 문제들이 발생하고 또 어떻게 대응을 할 수 있을지 생각해 볼 수 있..

[Crawling] 웹 크롤링과 웹 스크래핑의 차이

2024.03.27· 데이터 엔지니어링/Crawling

웹 크롤링(Web crawling)과 웹 스크래핑(Web scraping)은 둘 다 인터넷 상의 웹 페이지를 데이터를 추출하는 기술이지만, 약간의 차이가 있습니다. 웹 크롤링(Web Crawling)이란웹 크롤링은 검색 엔진과 같이 웹을 탐색하고 인덱싱하는 프로세스입니다. 크롤러 혹은 스파이더라 불리는 프로그램이 인터넷을 순회하여 웹 페이지의 링크를 따라가며 정보를 수집합니다. 이는 주로 검색 엔진이 웹 페이지를 인덱싱하여 사용자가 검색 시 검색 결과를 제공하는 데 사용됩니다.웹 스크래핑(Web Scraping)이란웹 스크래핑은 웹 사이트에서 원하는 데이터를 추출하는 프로세스입니다. 보통은 특정 웹 페이지에서 필요한 정보를 가져와서 분석, 가공하거나 저장합니다. 스크래핑은 웹 크롤링을 포함할 수 있지만,..

[Python] 페이지 요청 보낼 때 가상의 유저 만들기 - fake_useragent

2024.03.27· 데이터 엔지니어링/Crawling

크롤러를 개발하다 보면 가장 중요한 부분은 불법 요청자로 판별되어 차단을 당하지 않는 것이다. 해당 웹 서버에 부담이 되는 많은 요청은 지양을 하는 것이 좋지만, 비즈니스를 위해 필요할 경우가 많다. 그럴 경우에 사용할 수 있는 방법 하나를 공유하고자 한다. User-Agent란 유저 에이전트는 웹 크롤러와 같은 웹 클라이언트가 서버에 HTTP 요청을 보낼 때 함께 보내는 정보이다. 해당 요청이 어떤 종류의 소프트웨어나 애플리케이션에서 온 것인지를 식별하기 위해 사용하고, 적합한 응답을 제공한다. 브라우저의 종류와 버전 : 예) Chrome/94.0.4606.81 등 운영체제 정보 : 예) windows10, macOS, Linux 등 디자이스 종류 : 모바일 장치인지 데스크톱 컴퓨터인지 식별 유저 에이..

[클라우드] AWS, Azure, GCP, Alibaba Cloud 비교

2024.03.26· DevOps, 인프라

☁️ AWS (Amazon Web Services)출시: 2006년운영사: Amazon특징:가장 성숙하고 안정적인 클라우드 서비스서비스 종류와 글로벌 리전 수가 가장 많음대기업, 스타트업 모두 많이 사용주요 서비스:EC2 (가상 서버)S3 (스토리지)RDS (데이터베이스)Lambda (서버리스 함수)SageMaker (AI/ML 플랫폼)☁️ Microsoft Azure출시: 2010년운영사: Microsoft특징:윈도우 서버, Active Directory, .NET 기반 시스템과의 궁합이 좋음기업용 시장 점유율 높음 (특히 금융/공공기관 등)Office 365, Power BI, Dynamics 등 MS 제품과 연계 가능주요 서비스:Azure Virtual MachinesAzure Blob Storag..

[Kafka] Topic이 delete 되지 않을 때 - 기본 다루기

2024.03.10· 데이터 엔지니어링/Apache

* 구글링을 하다보면 --zookeeper가 있고 --bootstrap-server가 있는데, kafka의 최신 버전에서는 --zookeeper옵션이 사용되지 않으므로 --bootstrap-server 옵션을 사용하여 kafka브로커에 직접 연결해야 한다. 1. 토픽 조회 kakfa-topic --bootstrap-server localhost:9092 --list 2. 토픽 삭제 kafka-topics --delete --bootstrap-server localhost:9092 --topic --delete명령어 이후 다시 조회를 해보면 정상적으로 삭제가 되어야 하지만? 왜 그대로 있는거지... 심지어 아무런 에러메세지도 보여주지 않았다. 많은 구글링을 통해서 server.properties 파일을 변..

[Kafka] Kafka Connect 날짜 변환 문제 해결 - Avro / Epoch

2024.03.07· 데이터 엔지니어링/Apache

더보기 문제는 바야흐로 7개월 전... kafka와 elastic을 활용한 모니터링 대시보드를 기획하여 구축하였다. 관련 기술들에 아무런 배경지식이 없이 시작한 나는 뚱땅뚱땅 구축 성공처럼 보였으나 문제가 있었다. Kibana를 통해 시각화를 하려고 하니 날짜 데이터가 이상하게 조회가 되는 것이 아닌가! 문제의 원인을 파악하고,, 다시 개념부터 살펴보고,, 삽질의 삽질을 거쳐 드디어 해결하였다. 중간에 다른 업무로 놓은 시기도 있었지만 장장 4개월만에 해결한거라 감회가 새롭다^^ 물론 아주 기본적인, 다른 사람들은 처음부터 잘 알고 있는 부분일 수도 있지만 나와 같이 헤매다 이쪽으로 오게 되신 분 들도 계실테니 삽질로그를 남겨보겠다. 문제 상황 SoureDB의 "2024-01-08" date값이 '197..

[OpenCV] 이미지 분석 시작하기 - 유사도 분석

2024.02.29· 데이터 엔지니어링/Python

오늘의 목표는 두 개의 이미지의 유사도를 반환해 낼 거다. 1. 히스토그램 비교 가장 일반적인 방법인 히스토그램은 이미지의 각 픽셀 값의 빈도를 나타내는 그래프로, 픽셀 값들의 분포를 알 수 있다. import cv2 import numpy as np # 이미지 불러오기 img1 = cv2.imread('image1.jpg') img2 = cv2.imread('image2.jpg') # 히스토그램 계산 hist1 = cv2.calcHist([img1], [0, 1, 2], None, [256, 256, 256], [0, 256, 0, 256, 0, 256]) hist2 = cv2.calcHist([img2], [0, 1, 2], None, [256, 256, 256], [0, 256, 0, 256, 0,..

전체 글

티스토리툴바