selenium - 請教一下 Python 爬蟲工具
問題描述
1)我要抓的是 Instagram 某明星的粉絲2)Instagram pc 站使用了大量的 js 渲染3)沒寫過爬蟲,老板明天就要數據
我目前使用的是BeautifulSoup, selenium 和phantomjs
代碼 demo 大概是
driver = webdriver.PhantomJS(self.browser)driver.get(self.url)driver.implicitly_wait(3)element = driver.find_element_by_class_name('_s53mj')element.click()html = driver.page_sourcesoup = BeautifulSoup(html)
問題是:1) 我不知道click 有沒有執行成功, click 的元素對不對, driver 好像沒有返回值給我參考2) 即使 click 成功了, 但是他是不是只調了 js里的 click() 方法,并沒有觸發 target 怎么辦3)我不知道是先渲染page_source, 還是 應該先 click, 假設執行成功了 click, 是不是也不會再 source 里返回了
啊, 謝各位爬蟲大佬了
問題解答
回答1:說的是什么意思?百思不得其解啊。。。
selenium自動化,click能模仿用戶點擊,就跟你自己在頁面上點擊一樣,一切都在虛擬瀏覽器驅動中進行。
看你的業務邏輯啊。。。比如有些數據要點擊后才有,那就先click再獲取源代碼。
相關文章:
1. javascript - JS設置Video視頻對象的currentTime時出現了問題,IE,Edge,火狐,都可以設置,反而chrom卻...2. java固定鍵值轉換,使用枚舉實現字典?3. 如何為每個應用程序配置tomcat 6的logs / catalina.out。(為sys.out,sys.err配置Web應用程序特定的日志文件)4. css - ionic中的柵格布局如何讓文字內容多少不同的每一列中的內容都能垂直居中?5. php自學從哪里開始?6. phpstady在win10上運行7. java - 我設置了cookie的max age,但是cookie依然在關閉游覽器后消失了8. python - flask學習,user_syy添加報role is invalid keyword for User.9. 這是什么情況???10. javascript - 用jsonp抓取qq音樂總是說回調函數沒有定義
