본문 바로가기

전체 글

(163)
필요할 기본 개념들 node.js : 원래 서버는 php등 서버 스크립트 언어로 개발해야 했지만, node.js 덕분에 자바스크립트로 frontend, backend 모두 개발할 수 있게 되었다. headless chrome crawler (HCC) : GUI없이 실제 브라우저와 동일하게 동작하므로 자바스크립트도 동작하고, 웹크롤링하거나 스크린샷을 찍을 때 빠르고 유용하다. 원래 PhantomJS로 headless브라우저를 실행할 수 있었으나 지금은 크롬에서 직접 headless모드를 추가했다. (CLI기반의 서버OS인 리눅스에서도 사용가능) puppeteer (Headless Chrome Node API) : 화면없는 크롬을 구현하여 브라우저에서 수동으로 할 수 있는 대부분의 작업 수행가능 & 동적 페이지 제어 가능한 n..
selenium headless chrome selenium headless chrome_options = webdriver.ChromeOptions() # 크롬 옵션 객체 생성 chrome_options.add_argument('headless') # headless 모드 설정 chrome_options.add_argument("--disable-gpu" ) # gpu(그래픽 카드 가속) 사용 안하도록 설정 chrome_options.add_argument("lang=ko_KR") # 한국어로 실행되도록 설정 chrome_options.add_argument('window-size=1920x1080') # 일반적인 모니터 사이즈로 설정 driver = webdriver.Chrome("드라이버 경로", chrome_op..
웹사이트에 댓글 / 채팅 기능 넣기 물론 가입해서 개인적으로 코드를 발급받아야 하는 것 같다. 댓글기능을 제공하는 disqus 채팅기능을 제공하는 tawk
유튜브영상링크 스크롤 끝까지 크롤링 답글과 자세히보기는 x 뭔가 로딩이 느려서 안되는 경우도 많음 ㅠㅠ 한 페이지에 20개씩 보이는 거 같길래 (댓글 수/20)번 내렸는데 답글 수까지 포함된 수라는 걸 생각을 못해서 답글이 많이 달린 영상이라면 헛으로 키를 누르는 경우가 많을 수 있고, 간단한 문제인데 내릴때마다 다시 맨 위로 올라가서 답답했다. 근데 END키를 쓰면 맨 밑으로 내려가긴하는데 로딩이 안되서 계속 현재까지 불러온 페이지 크기까지만 스크롤해서 다음 화면을 불러왔다. 맨날 진도는 안나가고 막히는 거 같다 ㅠㅠ 원래는 댓글수집해서 텍스트마이닝 해보고싶었는데 생각보다 너무 복잡하다 import time from selenium.webdriver.common.keys import Keys from selenium import webd..
유튜버의 영상 제목 크롤링 / 영상 댓글 크롤링 텍스트마이닝 해보고 싶은데 아직 파싱도 제대로 못한다 ㅠㅠ 생각보다 진도가 너무 안나가는 중이라서 하나하나 이해못해도 그냥 따라만이라도 해봐야겠다. import time from [selenium.webdriver.common.keys](selenium.webdriver.common.keys) import Keys from selenium import webdriver from bs4 import BeautifulSoup import urllib from [selenium.webdriver.common.action\_chains](selenium.webdriver.common.action_chains) import ActionChains driver = [webdriver.Chrome('C:](w..
(pandas) 로그인>검색>링크와 제목 csv에 저장 보호되어 있는 글입니다.
현재시간 출력 import datetime now = [datetime.datetime.now()](datetime.datetime.now()) print([now.year)](now.year)) print([now.month)](now.month)) print([now.day)](now.day)) print([now.hour)](now.hour)) print([now.minute)](now.minute)) print([now.second)](now.second)) print("지금 시각은 {}년 {}월 {}일 {}시 {}분 {}초입니다.".format([now.year,](now.year,) [now.month,](now.month,) [now.day,](now.day,) [now.hour,](now.hour,) [..
pyperclip 복사 붙여넣기 import pyperclip [pyperclip.copy('저장해뜸')](pyperclip.copy('저장해뜸')) [pyperclip.paste()](pyperclip.paste())