문제상황크롤링을 하려 requests.get(url)을 하다가 아래 에러를 만나본적이 있을것이다.('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))이 에러는 요청한 서버에서 나를 자동화봇으로 보고 연결을 끊는 상황이다.해결방법이때 bot이 아닌 정상적인 요청임을 증명해야한다.크롤링하려는 페이지에서 개발자도구 > Network 에 들어가서 새로고침을 해보자.이처럼 제일 처음에 들어온 패킷이 있을것이다. 해당 패킷을 눌러서 살펴보면 Request Headers 부분에 user-agent 속성에 Mozilla 어쩌구하는 값이 있을것이다.이 값은 브라우저 정보를 나타내는 것인데 오..
이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 네이버 뉴스 크롤링 세번째 게시글입니다. 앞선 게시글을 본 후 보는 것을 추천드립니다. [WebCrawling] 네이버 뉴스 메뉴 크롤링 2022.ver 이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 포털사이트 크롤링 소스내에서 특정 문자열(data)을 자칭하는 선택자 얻기(크롬 개발자도구 사용) seojeong-99.tistory.com [WebCrawling] 네이버 뉴스 섹션 토픽 크롤링 2022.ver 이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 이전 게시글을 통해 네이버 -> 뉴스 -> 각 섹션 url을 얻어왔을 것이다...
이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 네이버 뉴스 크롤링 두번째 게시글입니다. 앞선 게시글을 본 후 보는 것을 추천드립니다. [WebCrawling] 네이버 뉴스 메뉴 크롤링 2022.ver 이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 포털사이트 크롤링 소스내에서 특정 문자열(data)을 자칭하는 선택자 얻기(크롬 개발자도구 사용) seojeong-99.tistory.com 이전 게시글을 통해 네이버 -> 뉴스 -> 각 섹션 url을 얻어왔을 것이다. 이번에 할 단계는 각 섹션에 있는 대표 토픽url을 크롤링해오는 것이다. 위의 화면에서 노란색 블록처리해놓은 부분이 대표 토픽(헤드라인)이다. 개발자도구로 들어..
이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 포털사이트 크롤링 소스내에서 특정 문자열(data)을 자칭하는 선택자 얻기(크롬 개발자도구 사용) 전체 코드에서 수집하려고 하는 데이터(태그)의 위치를 찾고 태그를 파싱한 후 필요데이터 추출 네이버 전체메뉴 크롤링 아래의 코드를 통해 네이버 상단 메뉴의 url을 가져올 수 있다. from urllib.request import urlopen # 서버 요청/응답 패키지 import bs4 # 파싱 패키지 # 네이버 사이트의 기본 메뉴 문구 추출 url = 'https://www.naver.com' # url로 요청 후 응답 html = urlopen(url) # 파서객체 생성 - bs4 객체로 변환 bs_obj = b..
이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 웹 크롤링은 웹 브라우저를 통해 진행 됨 관련 패키지 : webbrowser # 브라우저 컨트롤 모듈 import import webbrowser 브라우저 실행 : webbrowser.open 매개변수 : url을 전달(접속하고자 하는 웹 사이트) - url은 파라미터를 포함할 수 있음 - https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=python - https://search.naver.com/search.naver? : 검색을 위한 필수 주소 - where=nexearch&sm=top_hty&fbm=0&ie=u..
이 게시글은 정보처리기사 실기 준비를 위해 수제비책과 ToDev님 블로그를 참조했으며 N번째 시험을 겪으며 중요하다고 느껴지는 개념을 위주로 담았고 이번 시험이 마지막이길 기원하며 정리한 글입니다. 개념의 설명을 보고 어떤 개념인지 유추하고 맞춰보며 학습하도록 빈칸을 쳐 놓았습니다. 드래그를 통해 답을 맞춰보실 수 있습니다. 01 제품 소프트웨어 패키징 수행 ▶ 릴리즈 노트(Release Note) 최종 사용자인 고객에게 개발 과정에서 정리된 제품의 릴리즈 정보를 제공하는 문서 ▶ 릴리즈 노트(Release Note) 작성 항목 ⦁ 헤더 : 문서 이름, 제품 이름, 버전 번호, 릴리즈 날짜, 참고 날짜 등의 정보 ⦁ 개요 : 제품 및 변경에 대한 간략한 전반적 개요 ⦁ 목적 : 목적에 대한 rodym 버..
이 게시글은 정보처리기사 실기 준비를 위해 수제비책과 ToDev님 블로그를 참조했으며 N번째 시험을 겪으며 중요하다고 느껴지는 개념을 위주로 담았고 이번 시험이 마지막이길 기원하며 정리한 글입니다. 개념의 설명을 보고 어떤 개념인지 유추하고 맞춰보며 학습하도록 빈칸을 쳐 놓았습니다. 드래그를 통해 답을 맞춰보실 수 있습니다. 01 운영체제의 특징 ▶ 운영체제 사용자가 컴퓨터 하드웨어를 쉽게 사용할 수 있도록 인터페이스를 제공해주는 소프트웨어 ▶ 운영체제의 종류 : 윈도즈, 유닉스, 리눅스, 맥, 안드로이드 ▶ 리눅스/유닉스 계열의 기본 명령어 ⦁ chmod : 특정 파일 또는 디렉토리의 퍼미션 수정 명령어 ⦁ chown : 파일이나 디렉토리의 소유자, 소유 그룹 명령어 ▶ 메모리 관리 기법 ⦁ 반입 기법..
이 게시글은 정보처리기사 실기 준비를 위해 수제비책과 ToDev님 블로그를 참조했으며 N번째 시험을 겪으며 중요하다고 느껴지는 개념을 위주로 담았고 이번 시험이 마지막이길 기원하며 정리한 글입니다. 개념의 설명을 보고 어떤 개념인지 유추하고 맞춰보며 학습하도록 빈칸을 쳐 놓았습니다. 드래그를 통해 답을 맞춰보실 수 있습니다. 01 애플리케이션 테스트 케이스 설계 ▶ 소프트웨어 테스트 원리 ⦁ 테스팅은 결함이 존재함을 밝히는 것 ⦁ 완벽한 테스팅은 불가능 ⦁ 테스팅은 정황에 의존적 : 소프트웨어의 성격에 맞게 테스트 실시 ⦁ 개발 초기에 테스팅 시작 > 요르돈의 법칙(Snowball Effect, 눈덩이 법칙) : 개발 초기에 테스팅 하지 않으면 비용이 커진다. ⦁ 결함 집중 > 파레토 법칙 : 소프트웨어..