前言
鏈接也就是超級(jí)鏈接,是從一個(gè)元素(文字、圖片、視頻等)鏈接到另一個(gè)元素(文字、圖片、視頻等)。網(wǎng)頁中的鏈接一般有三種,一種是絕對(duì)URL超鏈接,也就是一個(gè)頁面的完整路徑;另一種是相對(duì)URL超鏈接,一般都鏈接到同一網(wǎng)站的其他頁面;還有一種是頁面內(nèi)的超鏈接,這種一般鏈接到同一頁面內(nèi)的其他位置。
搞清楚了鏈接的種類,就知道要抓鏈接,主要還是絕對(duì)URL超鏈接和相對(duì)URL超鏈接。要寫出正確的正則表達(dá)式,就必須要了解我們查找的對(duì)象的模式。
先說絕對(duì)鏈接,也叫作URL(Uniform Resource Locator),標(biāo)識(shí)了互聯(lián)網(wǎng)上的唯一資源。URL的結(jié)構(gòu)包含三部分:協(xié)議、服務(wù)器名稱、路徑和文件名。
協(xié)議是告訴瀏覽器如何處理將要打開文件的標(biāo)識(shí),最常見的就是 http 協(xié)議。本文也只考慮HTTP協(xié)議,至于其他的 https、ftp、mailto、telnet協(xié)議等,根據(jù)需要也可以添加。
服務(wù)器名稱是告訴瀏覽器如何到達(dá)這個(gè)服務(wù)器的方式,通常是域名或者IP地址,有時(shí)還會(huì)包含端口號(hào)(默認(rèn)為80)。FTP協(xié)議中,也可以包含用戶名和密碼,本文就不考慮了。
路徑和文件名,一般以 / 分割,指出到達(dá)這個(gè)文件的路徑和文件本身的名稱。如果沒有具體的文件名,則訪問這個(gè)文件夾下的默認(rèn)文件(可以在服務(wù)器端設(shè)置)。
那么現(xiàn)在清楚了,要抓取的絕對(duì)鏈接的典型形式可以概括為
http://www.xxx.com/xxx/yyy/zzz.html
每個(gè)部分可以使用的字符范圍有明確的規(guī)范,具體可以參考RFC1738。那么正則表達(dá)式就可以寫出來了。
/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i
解釋如下:
(http|https)第一個(gè)括號(hào)內(nèi)匹配的是協(xié)議部分。
([\w\d\-_]+[\.\w\d\-_]+)第二個(gè)括號(hào)內(nèi)匹配的是域名部分。
([\/]?[\w\/\.]+)第三個(gè)括號(hào)內(nèi)匹配的是相對(duì)路徑。
寫到這個(gè)時(shí)候,基本上大部分的網(wǎng)址都能匹配到了,但是對(duì)于URL中帶有參數(shù)的還不能抓取,這樣有可能造成再次訪問的時(shí)候頁面報(bào)錯(cuò)。關(guān)于參數(shù)RFC1738規(guī)范中要求是用?來分割,后面帶上參數(shù),但是現(xiàn)代的RIA應(yīng)用有可能使用其他奇怪的形式進(jìn)行分割。
稍微修改一下,這樣就可以將查詢參數(shù)部分搜索出來。這里仍然沒有涵蓋全部的情況,例如URL中有中文、有空格及其他特殊字符的情況,但是基本上能夠滿足我的需求了,就沒有繼續(xù)深化。
/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i
使用括號(hào)的好處是,在處理結(jié)果時(shí),可以很容易的獲取到協(xié)議、域名、相對(duì)路徑這些內(nèi)容,方便后續(xù)的處理。
例如使用 preg_match_all() 匹配時(shí),結(jié)果數(shù)組索引0為全部結(jié)果、1為協(xié)議、2為域名、3為相對(duì)路徑。
以上就是使用PHP的正則抓取頁面中的網(wǎng)址的全部?jī)?nèi)容,希望對(duì)大家在PHP使用中有所幫助。