R语言数据框与数据读取全解析
立即解锁
发布时间: 2025-09-02 02:14:37 阅读量: 16 订阅数: 50 AIGC 


数据可视化与二语研究
### R语言数据框与数据读取全解析
#### 1. 数据框(Data Frames)
数据框与矩阵有相似之处,但它有一个重要的特性,即每一列可以有自己的对象类型。数据框大致相当于Excel电子表格,与一维的向量不同,它有行和列两个维度,且每一列都是一个向量。
虽然数据框不是最快的数据结构(例如数据表格更快),但它是最常用的。除非要分析大量数据,否则数据框足以完成任务。
##### 1.1 列表(Lists)与数据框的过渡
列表类似于字典,每个条目可以有不同的定义。例如,在`myList2`中,第一个条目等同于`myNumbers`(包含1, 2, 3),第二个条目等同于`myWords`(包含“English”,“Spanish”,“French”)。要访问“French”,可以输入`myList2[[2]][3]`。
为了更方便地访问列表内容,可以给列表条目命名,之后就可以使用`$`符号来访问。列表在需要层次结构来容纳不同类型对象时很有用,但数据通常不会以列表形式存在,因此我们转向数据框。
##### 1.2 创建数据框
在R中创建数据框可以使用`data.frame()`命令,也可以使用`as.data.frame()`函数。以下是创建数据框的示例代码:
```R
# 创建数据框的第一种方式
df = data.frame(Numbers = myNumbers,
Languages = myWords,
Logicals = c(TRUE, NA, FALSE))
# 更快/更简单的方式
names(myList2) = c("Numbers", "Languages", "Logicals") # 给列表条目命名
df = as.data.frame(myList2)
# 检查每列的类型
str(df)
# 查看数据框的概况
summary(df)
# 计算Numbers列的均值、中位数和标准差
mean(df$Numbers) # 切片表示法:mean(df[, "Numbers"]) 或 mean(df[,1])
median(df$Numbers) # 切片表示法:median(df[, "Numbers"]) 或 median(df[,1])
sd(df$Numbers) # 切片表示法:sd(df[, "Numbers"]) 或 sd(df[,1])
# 可视化数据框
head(df, n = 2) # 前两行
tail(df, n = 2) # 后两行
# 将数据框导出为csv文件
write.csv(df, file = "df.csv",
row.names = FALSE,
quote = FALSE)
```
在上述代码中,`df`是一个包含三列的数据框,每列有不同的对象类型和名称。可以使用`str()`函数查看每列的类型,使用`summary()`函数查看数据集的概况。
##### 1.3 访问数据框的列
可以使用`$`符号或切片表示法来访问数据框的列。例如,要打印`Languages`列,可以运行`df$Languages`;要提取该列并赋值给新变量,可以运行`newVariable = df$Languages`。
切片表示法中,`df[,2]`表示打印第二列的所有行,`df[3,2]`表示打印第二列的第三行,`df[c(1,3),2]`表示打印第二列的第一行和第三行。也可以使用列名代替索引,如`df[3, "Languages"]`。
##### 1.4 数据框的可视化和导出
`head()`函数可以打印数据框的前几行(默认是6行),`tail()`函数可以从数据框的底部开始打印。这两个函数很有用,因为通常不需要在屏幕上打印整个数据框。
要将数据框导出为csv文件,可以使用`write.csv()`函数,需要指定要保存的对象、文件名、是否保留行名和是否使用引号。
#### 2. 读取数据
开始新的分析时,首先要加载数据。在导入数据之前,需要检查数据文件是否准备好,并了解R Projects这个工具。
##### 2.1 数据文件准备
理论
0
0
复制全文
相关推荐










