在爬虫爬取数据的之前,必须先系统的了解一下我们待爬取的数据有哪些格式,这样做的好处在与能针对不同的数据类型采取不同分方法手段。
一、XML
XML(Extensible Markup Language)是一种可扩展的标记语言,它定义了一套标记,用于组织和传输信息,比如文本、图像、数据、音频和视频等。与HTML不同,XML并不是用于显示信息的,而是用于存储和传输信息的。XML标记没有预定义的含义,必须由用户自定义。XML标记可以用于组织和传输各种类型的数据,例如文本、图像、数据、音频和视频等。XML还支持自定义标记,这些标记可以用于描述特定类型的数据。许多应用程序和系统都使用XML作为数据存储和传输的标准格式,因为它具有灵活性和可扩展性。
二、JSON
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它比XML更小、更快,而且更容易被人阅读。JSON格式定义了一种可以在Web浏览器和服务器之间传输数据的简单方法。它由两个主要部分组成:键值对和数组。键值对是一对括号内的键和值,其中键通常是字符串,值可以是字符串、数字、布尔值、数组或另一个键值对。数组是一组值的集合,它们以逗号分隔,每个值都有一个唯一的键。JSON数据可以用于在Web应用程序和服务器之间传输数据,也可以用于在客户端和服务器之间传输数据。许多Web框架都支持JSON数据格式,因此它已经成为了一种流行的数据交换格式。
具有以下几个关键特点:
- JSON 是轻量级的文本数据交换格式。相比XML,JSON 的体积更小、更快速,这使得 JSON 非常