이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 네이버 뉴스 크롤링 두번째 게시글입니다. 앞선 게시글을 본 후 보는 것을 추천드립니다. [WebCrawling] 네이버 뉴스 메뉴 크롤링 2022.ver 이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 포털사이트 크롤링 소스내에서 특정 문자열(data)을 자칭하는 선택자 얻기(크롬 개발자도구 사용) seojeong-99.tistory.com 이전 게시글을 통해 네이버 -> 뉴스 -> 각 섹션 url을 얻어왔을 것이다. 이번에 할 단계는 각 섹션에 있는 대표 토픽url을 크롤링해오는 것이다. 위의 화면에서 노란색 블록처리해놓은 부분이 대표 토픽(헤드라인)이다. 개발자도구로 들어..
프로그래밍/Crawling
이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 포털사이트 크롤링 소스내에서 특정 문자열(data)을 자칭하는 선택자 얻기(크롬 개발자도구 사용) 전체 코드에서 수집하려고 하는 데이터(태그)의 위치를 찾고 태그를 파싱한 후 필요데이터 추출 네이버 전체메뉴 크롤링 아래의 코드를 통해 네이버 상단 메뉴의 url을 가져올 수 있다. from urllib.request import urlopen # 서버 요청/응답 패키지 import bs4 # 파싱 패키지 # 네이버 사이트의 기본 메뉴 문구 추출 url = 'https://www.naver.com' # url로 요청 후 응답 html = urlopen(url) # 파서객체 생성 - bs4 객체로 변환 bs_obj = b..
이 게시글은 데이터사이언스엔지니어링_전문가 과정을 수강하며 복습을 위해 정리한 글입니다. 웹 크롤링은 웹 브라우저를 통해 진행 됨 관련 패키지 : webbrowser # 브라우저 컨트롤 모듈 import import webbrowser 브라우저 실행 : webbrowser.open 매개변수 : url을 전달(접속하고자 하는 웹 사이트) - url은 파라미터를 포함할 수 있음 - https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=python - https://search.naver.com/search.naver? : 검색을 위한 필수 주소 - where=nexearch&sm=top_hty&fbm=0&ie=u..
CSV는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 메모장이나 엑셀로 파일을 쉽게 만들 수 있고 다양한 프로그램에서 활용하여 사용할 수 있는 확장자이다. #크롤링 결과 comments를 pandas의 DataFrame 형식으로 읽어온다, data_com = pd.DataFrame(comments) data_com.columns = ['comment'] #csv파일로 저장 data_com.to_csv('댓글추출.csv', encoding='utf-8-sig') pandas형태로 받아온 데이터를 csv파일로 저장을 할 때 자료 내에 한글이 있는 경우 글자가 깨져서 표시되는 경우가 많다. 그래서 encoding='utf-8-sig' 을 두어 문제를 해결한다. (엑셀에서 지원하는 c..
대학교 때 진행한 작은 프로젝트 기록입니다. 더보기 학교에서 인공지능 특화 실무형 창의 소프트웨어 경진대회를 시행한다는 공고를 보았다. 그래서 친구들과 함께 개발톤 부분을 참가하기로 했다. 주제는 인공지능 및 응용기술을 활용한 sw개발이고 우리는 'AI댓글필터링'을 만들기로 기획하였다. 이에 첫 번째로 해야 할 것이 뉴스에 있는 댓글들을 크롤링해오는 것인데 해당 코드로 댓글들을 데이터로 따올 수 있다. # 라이브러리를 로드합니다. from bs4 import BeautifulSoup import requests import re import sys import pprint # 댓글을 넣을 빈 리스트를 생성합니다. List=[] # 네이버 뉴스 url을 입력합니다. url="https://news.nave..