茄子在线看片免费人成视频,午夜福利精品a在线观看,国产高清自产拍在线观看,久久综合久久狠狠综合

    <s id="ddbnn"></s>
  • <sub id="ddbnn"><ol id="ddbnn"></ol></sub>

  • <legend id="ddbnn"></legend><s id="ddbnn"></s>

    PHP怎樣用正則抓取頁面中的網(wǎng)址
    來源:易賢網(wǎng) 閱讀:1121 次 日期:2016-08-29 14:00:09
    溫馨提示:易賢網(wǎng)小編為您整理了“PHP怎樣用正則抓取頁面中的網(wǎng)址”,方便廣大網(wǎng)友查閱!

    前言

    鏈接也就是超級(jí)鏈接,是從一個(gè)元素(文字、圖片、視頻等)鏈接到另一個(gè)元素(文字、圖片、視頻等)。網(wǎng)頁中的鏈接一般有三種,一種是絕對(duì)URL超鏈接,也就是一個(gè)頁面的完整路徑;另一種是相對(duì)URL超鏈接,一般都鏈接到同一網(wǎng)站的其他頁面;還有一種是頁面內(nèi)的超鏈接,這種一般鏈接到同一頁面內(nèi)的其他位置。

    搞清楚了鏈接的種類,就知道要抓鏈接,主要還是絕對(duì)URL超鏈接和相對(duì)URL超鏈接。要寫出正確的正則表達(dá)式,就必須要了解我們查找的對(duì)象的模式。

    先說絕對(duì)鏈接,也叫作URL(Uniform Resource Locator),標(biāo)識(shí)了互聯(lián)網(wǎng)上的唯一資源。URL的結(jié)構(gòu)包含三部分:協(xié)議、服務(wù)器名稱、路徑和文件名。

    協(xié)議是告訴瀏覽器如何處理將要打開文件的標(biāo)識(shí),最常見的就是 http 協(xié)議。本文也只考慮HTTP協(xié)議,至于其他的 https、ftp、mailto、telnet協(xié)議等,根據(jù)需要也可以添加。

    服務(wù)器名稱是告訴瀏覽器如何到達(dá)這個(gè)服務(wù)器的方式,通常是域名或者IP地址,有時(shí)還會(huì)包含端口號(hào)(默認(rèn)為80)。FTP協(xié)議中,也可以包含用戶名和密碼,本文就不考慮了。

    路徑和文件名,一般以 / 分割,指出到達(dá)這個(gè)文件的路徑和文件本身的名稱。如果沒有具體的文件名,則訪問這個(gè)文件夾下的默認(rèn)文件(可以在服務(wù)器端設(shè)置)。

    那么現(xiàn)在清楚了,要抓取的絕對(duì)鏈接的典型形式可以概括為

    http://www.xxx.com/xxx/yyy/zzz.html

    每個(gè)部分可以使用的字符范圍有明確的規(guī)范,具體可以參考RFC1738。那么正則表達(dá)式就可以寫出來了。

    /(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i

    解釋如下:

    (http|https)第一個(gè)括號(hào)內(nèi)匹配的是協(xié)議部分。

    ([\w\d\-_]+[\.\w\d\-_]+)第二個(gè)括號(hào)內(nèi)匹配的是域名部分。

    ([\/]?[\w\/\.]+)第三個(gè)括號(hào)內(nèi)匹配的是相對(duì)路徑。

    寫到這個(gè)時(shí)候,基本上大部分的網(wǎng)址都能匹配到了,但是對(duì)于URL中帶有參數(shù)的還不能抓取,這樣有可能造成再次訪問的時(shí)候頁面報(bào)錯(cuò)。關(guān)于參數(shù)RFC1738規(guī)范中要求是用?來分割,后面帶上參數(shù),但是現(xiàn)代的RIA應(yīng)用有可能使用其他奇怪的形式進(jìn)行分割。

    稍微修改一下,這樣就可以將查詢參數(shù)部分搜索出來。這里仍然沒有涵蓋全部的情況,例如URL中有中文、有空格及其他特殊字符的情況,但是基本上能夠滿足我的需求了,就沒有繼續(xù)深化。

    /(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i

    使用括號(hào)的好處是,在處理結(jié)果時(shí),可以很容易的獲取到協(xié)議、域名、相對(duì)路徑這些內(nèi)容,方便后續(xù)的處理。

    例如使用 preg_match_all() 匹配時(shí),結(jié)果數(shù)組索引0為全部結(jié)果、1為協(xié)議、2為域名、3為相對(duì)路徑。

    以上就是使用PHP的正則抓取頁面中的網(wǎng)址的全部內(nèi)容,希望對(duì)大家在PHP使用中有所幫助。

    更多信息請(qǐng)查看網(wǎng)絡(luò)編程
    易賢網(wǎng)手機(jī)網(wǎng)站地址:PHP怎樣用正則抓取頁面中的網(wǎng)址
    由于各方面情況的不斷調(diào)整與變化,易賢網(wǎng)提供的所有考試信息和咨詢回復(fù)僅供參考,敬請(qǐng)考生以權(quán)威部門公布的正式信息和咨詢?yōu)闇?zhǔn)!

    2026國考·省考課程試聽報(bào)名

    • 報(bào)班類型
    • 姓名
    • 手機(jī)號(hào)
    • 驗(yàn)證碼
    關(guān)于我們 | 聯(lián)系我們 | 人才招聘 | 網(wǎng)站聲明 | 網(wǎng)站幫助 | 非正式的簡要咨詢 | 簡要咨詢須知 | 新媒體/短視頻平臺(tái) | 手機(jī)站點(diǎn) | 投訴建議
    工業(yè)和信息化部備案號(hào):滇ICP備2023014141號(hào)-1 云南省教育廳備案號(hào):云教ICP備0901021 滇公網(wǎng)安備53010202001879號(hào) 人力資源服務(wù)許可證:(云)人服證字(2023)第0102001523號(hào)
    云南網(wǎng)警備案專用圖標(biāo)
    聯(lián)系電話:0871-65099533/13759567129 獲取招聘考試信息及咨詢關(guān)注公眾號(hào):hfpxwx
    咨詢QQ:1093837350(9:00—18:00)版權(quán)所有:易賢網(wǎng)
    云南網(wǎng)警報(bào)警專用圖標(biāo)