用php代替js玩轉(zhuǎn)dom的思路及示例代碼
來源:易賢網(wǎng) 閱讀:852 次 日期:2014-07-31 09:59:44
溫馨提示:易賢網(wǎng)小編為您整理了“用php代替js玩轉(zhuǎn)dom的思路及示例代碼”,方便廣大網(wǎng)友查閱!
事情的起源比較簡單,我需要把一個導(dǎo)航頁的數(shù)據(jù)整理好寫入數(shù)據(jù)庫。一個比較直觀的方法是對html文件進行分析,通用的方法是用php的正則表達式來匹配。但是這樣做開發(fā)和維護都很困難,代碼可讀性非常差。 導(dǎo)航頁的數(shù)據(jù)都是規(guī)則的排列在dom樹當(dāng)中的,用js可以用幾個循環(huán)輕松的對其進行操作,而且js需要依賴瀏覽器,操作數(shù)據(jù)庫很困難。其實php就有現(xiàn)成的類庫對dom樹種的節(jié)點進行增刪改查操作,在此做一些筆記。 這里涉及到2個類 domdocument 和 domxpath。 其實思路比較明確,就是通過domdocument將一個html file轉(zhuǎn)換成dom樹的數(shù)據(jù)結(jié)構(gòu),再用domxpath的實例去搜索這個dom樹,拿到想要特定節(jié)點,接下來就可以對當(dāng)前節(jié)點的子樹進行遍歷,得到想要的結(jié)果。 在當(dāng)前目錄下有一個這樣一個導(dǎo)航的html文件 ./hao.html 現(xiàn)在需要得到所有<a>標簽的中文內(nèi)容,php代碼如下:
代碼如下:
<?php
//將html/xml文件轉(zhuǎn)換成dom樹
$dom = new domdocument();
$dom->loadhtmlfile(hao.html);
//得到所有class為fix的dl標簽
// example 1: for everything with an id
//$elements = $xpath->query(//*[@id]);
// example 2: for node data in a selected id
//$elements = $xpath->query(/html/body/div[@id='yourtagidhere']);
// example 3: same as above with wildcard
//$elements = $xpath->query(*/div[@id='yourtagidhere']);
$xpath = new domxpath($dom);
$dls = $xpath->query('//dl[@class=fix]');
foreach ($dls as $dl) {
$spans = $dl->childnodes;
foreach ($spans as $span) {
echo trim($span->textcontent).\t;
}
echo \n;
}
?>
輸出結(jié)果如下: 注意:值得注意的一點是domdocument的默認編碼方式是latin,所以在處理utf編碼的中文的時候,需要在<head>后面緊跟著填入
代碼如下:
<meta http-equiv=content-type content=text/html; charset=utf-8>
在其他位置,或者是只寫上<meta content=charset=utf-8>都是不識別的哦
由于各方面情況的不斷調(diào)整與變化,易賢網(wǎng)提供的所有考試信息和咨詢回復(fù)僅供參考,敬請考生以權(quán)威部門公布的正式信息和咨詢?yōu)闇剩?/div>