python获取html dom标签属性 " />
HTML是一种标记语言,用于创建Web页面及其内容的结构和语义。
HTML标签定义了文档中的不同部分,并且可以使用属性对标签进行进一步的定义。下面是一些常用的HTML标签及其属性:
1. 标题标签:用于定义网页的标题,包括6个层级的标签,分别是`
`~``。可以使用属性`align`来定义标题的位置,可选值为`left`、`right`和`center`。
2. 段落标签:用于定义文章的段落,常用标签是`
`。可以使用属性`class`和`id`对段落进行样式和标识的定义。
3. 超链接标签:用于在Web页面中添加链接,常用标签是`Python中,可以使用第三方库如BeautifulSoup、lxml等来解析HTML文档,并获取标签的名称、属性、文本内容等信息。以BeautifulSoup为例,解析HTML文档的代码如下:
```python
from bs4 import BeautifulSoup
# 读取HTML文档
with open('example.html') as f:
html_doc = f.read()
# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')
# 获取标题标签
print(soup.h1.string)
# 获取超链接的地址和文本内容
for link in soup.find_all('a'):
print(link.get('href'), link.string)
# 获取表格的全部内容
table = soup.table
all_rows = []
for row in table.find_all('tr'):
columns = row.find_all('td')
row_data = []
for column in columns:
row_data.append(column.string)
all_rows.append(row_data)
print(all_rows)
```
该脚本通过BeautifulSoup库来解析HTML文档,并分别获取了标题、超链接和表格的内容。其中,`soup.h1.string`获取了第一个`
发表评论 取消回复