HTML 语言简介
HTML 的全名是“超文本标记语言”(HyperText Markup Language),它的最大特点就是支持超链接,点击链接就可以跳转到其他网页,从而构成了整个互联网。浏览器访问网站,其实就是从服务器下载 HTML 代码,然后渲染出网页。
1999年,HTML 4.01 版发布,成为广泛接受的 HTML 标准。2014年,HTML 5 发布,这是目前正在使用的版本。
1、XHTML
可扩展超文本标记语言(英语:eXtensible HyperText Markup Language,XHTML),是一种标记语言,表现方式与HTML类似,不过语法上更加严格。
从继承关系上讲,HTML是一种基于标准通用标记语言(SGML)的应用,是一种非常灵活的置标语言,而XHTML则基于可扩展标记语言(XML),XML是SGML的一个子集。 XHTML与 HTML 4.01 几乎是相同的。
建立XHTML的目的就是实现HTML向XML的过渡,他们的区别:
- HTML语法要求比较松散,对机器来说处理困难。
- XHTML要求标签包括空元素必需闭合、标签必需小写、参数值必须使用双引号等。
2、网页的基本概念
HTML 语言定义网页的结构和内容,CSS 样式表定义网页的样式,JavaScript 语言定义网页与用户的互动行为。HTML 语言是网页开发的基础,CSS 和 JavaScript 都是基于 HTML 才能生效,即使没有这两者,HTML 本身也能使用,可以完成基本的内容展示。
HTML 不是一种编程语言,而是一种标记语言,是使用一套标记标签来描述网页,包含了HTML标签及文本内容。
- HTML 标签是由尖括号包围的关键词,比如
- HTML 标签通常是成对出现的,比如 和
- 标签对中的第一个标签是开始标签,第二个标签是结束标签
- 开始和结束标签也被称为开放标签和闭合标签
属性是标签的额外信息,使用空格与标签名和其他属性分隔,属性名是大小写不敏感。
网页的通用声明
<!DOCTYPE html> <!-- HTML5 -->
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd"> <!-- HTML 4.01 严格型-->
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd"> <!-- HTML 4.01 Transitional过渡型 -->
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN"
"http://www.w3.org/TR/html4/frameset.dtd"> <!-- HTML 4.01 Frameset框架集型 -->
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <!-- XHTML 1.0 严格型; 与HTML4.01一样,也有过渡型/框架集型模式,参数设置方式一致-->
3、HTML语义化
-
通过使用包含语义的标签(如h1-h6)恰当地表示文档结构。
-
html语义化让页面的内容结构化,结构更清晰,便于对浏览器、搜索引擎解析;
-
即使在没有样式CSS情况下也以一种文档格式显示,并且是容易阅读的
-
搜索引擎的爬虫也依赖于HTML标记来确定上下文和各个关键字的权重,利于SEO;
-
使阅读源代码的人对网站更容易将网站分块,便于阅读维护理解
4、HTML字符编码
网页可以使用不同语言的编码方式,最常用的编码是 UTF-8,他们方式和区别:
- GB2312(EUC-CN):除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,但未收录繁体中文汉字和一些生僻字。
- UTF-8:是UNICODE的一种变长字符编码又称万国码,它可以用来表示Unicode标准中的任何字符,且向后兼容ASCII,是网页和电子邮件的首选编码。
- ASCII:万维网早期使用的字符集,支持 0-9 的数字,大写和小写英文字母表,以及一些特殊字符。
- GBK:
- unicode标准:用标准的 Unicode 转换格式 (UTF) 来取代现有的字符集,涵盖了世界上的所有字符、标点和符号,为每个符号指定一个编号,叫做"码点"。
4.1、码点表示法
HTML 为了解决以下这些问题,允许使用 Unicode 码点表示字符,浏览器会自动将码点转成对应的字符:
- 不是每个 Unicode 字符都可以打印出来;
- 小于号(
<
)和大于号(>
)用来定义 HTML 标签,其他场合使用需要防止被解析为标签; - 很多字符键盘不支持直接输入;
- 不允许混合使用多种编码;
字符的码点表示法是&#N;
(十进制,N
代表码点)或者&#xN;
(十六进制,N
代表码点),比如,字符a
可以写成a
(十进制)或者a
(十六进制)。
4.2、字符的实体表示法
每个字符的码点,很难记忆。为了能够快速输入,HTML 为一些特殊字符,规定了容易记忆的名字,允许通过名字来表示它们,这称为实体表示法(entity)。
字符实体有三部分:一个和号 ‘&’ 和一个实体名称(或者一个 ‘#’ 和一个实体编号),以及一个分号‘;’,
写法是&name;
,其中的name
是字符的名字。如:
<
:<
>
:>
"
:"
'
:'
&
:&
©
:©
#
:#
%
:%
*
:$ast;
@
:@
- 空格:
5、URL简介
URL 是“统一资源定位符”(Uniform Resource Locator)的首字母缩写,中文译为“网址”,表示各种资源的互联网地址。由以下部分组成:
- 协议(scheme)默认是 HTTP 协议;
- 主机(host):网站名或服务器的名字,又称为域名;
- 端口(port):同一个域名下面可能同时包含多个网站,它们之间通过端口区分;
- 路径(path):资源在网站的位置。比如,
/path/index.html
; - 查询参数(parameter):在路径后面,两者之间使用
?
分隔; - 锚点(anchor):网页内部的定位点,使用
#
加上锚点名称,放在网址的最后。
URL 的各个组成部分,只能使用:26个英语字母(包括大写和小写)、10个阿拉伯数字、连词号(-)、句点(.)、下划线(_)。
还有18个字符属于 URL 的保留字符,只能在给定的位置出现。比如,查询参数的开头是问号(?
)。
URL编码
URL 只能使用ASCII 字符集来通过因特网进行发送,之外的字符必须转换为有效的ASCII格式,转义的方法是,在这些字符的十六进制 ASCII 码前面加上百分号(%
),合法字符不建议转义。