Memo1: Stata数据清洗入门教程

mengke25

已于 2023-12-16 17:58:49 修改

阅读量2.4k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： stata 文章标签：数据分析

于 2023-10-11 17:08:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43168119/article/details/133774429

stata 专栏收录该内容

14 篇文章

订阅专栏

本文介绍了使用R语言中的dataclear工具包进行数据清洗和处理的一系列关键命令，包括变量生成、删除、替换、重命名、统计汇总、编码解码、数据合并、分组以及去重操作，帮助读者理解和应用这些实用技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Note: data clear

命用途令	缩写	用途
generate	gen	生成新变量
egen	egen	生成新变量（更多函数）
drop	drop	删除变量或样本
replace	replace	替换样本值
rename	ren	给变量重命名
tabulate	tab	列出变量下的值/类别
summarize	su	查看变量的描述性统计（均值、最大/小值、方差、样本量）
encode/decode	encode/decode	给字符串编码成数值型变量/给数值型变量解码成字符串
merge	merge	匹配数据
reshape	reshape	long型面板数据与 wide型数据互相转换
substr	substr	提取字符中内容
bysort	bys	分组进行操作
duplicates drop	duplicates drop	样本去重

Note: bysort & duplicates

1.数据的维度: $value_{ijst}$

fig1.查看面板数据的维度

2.加总到 $i, j, t$ 层面

[ $i, j, s, t$ ]→[ $i, j, t$ ]

bysort country partner time : egen v = total(value)

bysort实现分组功能，黄色线一组，蓝色线一组。分组后加总，生成最右侧蓝色列
fig2.分组求和

3.删除变量

得到更高层面的变量 $v_{ijt}$ 后，行业层面变量信息不再重要

keep country partner time v

fig3.扔掉其他变量

4.删除重复样本

fig4.样本去重

duplicates drop country partner time,force

fig5.数据处理结果

// a replaceble method
collapse (sum) v= value ,by(country partner time)

Note: merge

1.merge 1:1

use LEFT.dta
merge 1:1 from to using RIGHT.dta

fig6. merge 1:1 匹配

2.merge m:1

fig7.merge m:1 匹配

My info

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

mengke25 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。