返回首頁(yè)

如癡如醉--為之奈何

時(shí)間:2019-11-22 瀏覽次數(shù):663

　　Beautiful Soup支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器,還支持一些第三方的解析器，如果我們不安裝它，則 Python 會(huì)使用 Python默認(rèn)的解析器，lxml 解析器更加強(qiáng)大，速度更快，推薦安裝。

　　既然我們已經(jīng)得到了標(biāo)簽的內(nèi)容，那么問(wèn)題來(lái)了，我們要想獲取標(biāo)簽內(nèi)部的文字怎么辦呢？很簡(jiǎn)單，用 .string 即可，例如:

　　BeautifulSoup 對(duì)象表示的是一個(gè)文檔的全部?jī)?nèi)容.大部分時(shí)候,可以把它當(dāng)作 Tag 對(duì)象，是一個(gè)特殊的 Tag，我們可以分別獲取它的類型，名稱，以及屬性來(lái)感受一下：

　　Comment 對(duì)象是一個(gè)特殊類型的 NavigableString 對(duì)象，其實(shí)輸出的內(nèi)容仍然不包括注釋符號(hào)，但是如果不好好處理它，可能會(huì)對(duì)我們的文本處理造成意想不到的麻煩。

　　我們?cè)趯?xiě) CSS 時(shí)，標(biāo)簽名不加任何修飾，類名前加點(diǎn)，id名前加#，在這里我們也可以利用類似的方法來(lái)篩選元素，用到的方法是 soup.select()，返回類型是 list。

　　組合查找即和寫(xiě) class 文件時(shí)，標(biāo)簽名與類名、id 名進(jìn)行的組合原理是一樣的，例如查找 p 標(biāo)簽中，id 等于 link1 的內(nèi)容，二者需要用空格分開(kāi)

　　查找時(shí)還可以加入屬性元素，屬性需要用中括號(hào)括起來(lái)，注意屬性和標(biāo)簽屬于同一節(jié)點(diǎn)，所以中間不能加空格，否則會(huì)無(wú)法匹配到。

推薦內(nèi)容

久久精品一本到东京热|国产一区二区三区观看|亚洲无人区在线观看无码|精品久久久久久无码人妻|亚洲精选AV一区二区三区|国产成人久久综合一区77|亚洲国产精品久久久久久婷婷|亚洲欧美精品高清一区二区三区