BeautifulSoup是一个非常流行的模块该模块能够在解析一些的引号闭合标签的时候,对其进行排版。
例如:
from bs4 import BeautifulSoup
broken_html = '<ul class=country><li>Area</li><li>population</li>'
soup = BeautifulSoup(broken_html,'html.parser')
fixed_html = soup.prettify()
print fixed_html
结果是:
<ul class="country">
<li>
Area
</li>
<li>
population
</li>
</ul>
接下来我们通过find()和find_all()方法来
来定位我们的元素
ul = soup.find('ul',attrs = {'class':'country'})
print ul.find('li')
结果
<li>Area</li>
而find_all()方法则会解析出所有还有li的标签,组成一个元组
print ul.find_all('li')
结果:
[<li>Area</li>, <li>population</li>]