量化通 QuantPass

量化通QuantPass

爬蟲第三步:坐而言不如起而行

快速導覽

前言:

因為我們使用的是python去實作這部分,

所以如果不確定應該怎麼開始python沒關係,

筆者我也是先東抄抄西寫寫,拼拼湊湊把東西做出來後,

久了就會漸漸對於正在做的事情有感覺,進而漸漸學習起來的,

如果對於網頁架構不熟悉的朋友,可以先參考看看前幾篇介紹網頁架構的文章哦!

而如果不知道解析出來的網頁怎麼看得朋友,也可以看看先解析網頁介紹

所以不要怕做錯或是不知道怎麼做,直接動手就是最正確的,我們直接開始!

第一步:安裝Python Coding環境

工欲善其事,必先利其器!

這邊我們使用Pycharm來當作coding工具哦!

第二步:認識爬蟲初步套件

Request

把他想成網路世界的的自己,所有需要跟網路上任何對象互動的動作,基本上都可以藉由這個套件來完成,

隨著未來課程越來越深,這工具的使用也會越來越多元哦!

BeautifulSoup

可以快速解析網頁 HTML 碼,基本上算是特別針對爬蟲所設計的套件,

所以功能當然會是以解析網頁內容為主囉!

第三步:留下自己想要的內容

將爬蟲爬下來的網站內容,

經由 BeautifulSoup 的篩選功能只留下自己想要的部分內容後,

藉著python 存成list或是甚至轉成dictionary後,

將其資料去蕪存菁,

整理成自己想要的格式就完成第三步囉!

第四步:儲存自己想要的資料

 最後再將整理好的格式,

看是要使用csv套件逐行儲存不用管內容呢;

或是用pandas.to_csv 去將整份表格資料依序存進去;

無論是那種,抓好的資料先存起來,都可以讓未來想要使用時不用重新抓囉!

發表迴響

分類
更多文章

聯絡我們