CSV는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다.
메모장이나 엑셀로 파일을 쉽게 만들 수 있고
다양한 프로그램에서 활용하여 사용할 수 있는 확장자이다.
#크롤링 결과 comments를 pandas의 DataFrame 형식으로 읽어온다,
data_com = pd.DataFrame(comments)
data_com.columns = ['comment']
#csv파일로 저장
data_com.to_csv('댓글추출.csv', encoding='utf-8-sig')
pandas형태로 받아온 데이터를 csv파일로 저장을 할 때
자료 내에 한글이 있는 경우 글자가 깨져서 표시되는 경우가 많다.
그래서 encoding='utf-8-sig' 을 두어 문제를 해결한다.
(엑셀에서 지원하는 cp949나 euc-kr를 사용할 수도 있지만 저의 경우에는 해결이 안되어서 utf-8 포맷으로 해주었다.)
더보기
해당 포스팅을 지난 8월에 임시저장을 해두고 작업을 끝낸 후 수정 후 완료하려고 생각했으나,,
아주 새까맣게 잊어버리고 두달이 지났네ㅋㅋㅋㅋㅋ
웹크롤링을 통해 댓글을 수집하고 Label을 달아서 인공지능에게 딥러닝 시키려고 했으나
인공지능에게 문자인식을 시키고 학습을 시키는 것이 너무 어려운(일주일 안에 끝낼 수준은 아닌) 일이라고 인공지능 신 나선배님이 말씀해 주셔서 진전이 안되고,,, 이 게시글도 이제야 올리게 되었다.
인공지능 너 조만간 꼭 공부해볼거니까 딱 기다려
728x90
'프로그래밍 > Crawling' 카테고리의 다른 글
[WebCrawling] 네이버 뉴스 섹션별 토픽 기사 크롤링 2022.ver (0) | 2022.08.03 |
---|---|
[WebCrawling] 네이버 뉴스 섹션 토픽 크롤링 2022.ver (0) | 2022.08.03 |
[WebCrawling] 네이버 뉴스 메뉴 크롤링 2022.ver (0) | 2022.08.03 |
[WebCrawling] 웹 크롤링 기본 개념 및 문법 (BeautifulSoup사용법) (0) | 2022.08.02 |
[WebCrawling] 네이버 기사 댓글 크롤링하기 2020.ver (0) | 2020.08.19 |