Memo1: Stata数据清洗入门教程

本文介绍了使用R语言中的dataclear工具包进行数据清洗和处理的一系列关键命令,包括变量生成、删除、替换、重命名、统计汇总、编码解码、数据合并、分组以及去重操作,帮助读者理解和应用这些实用技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Note: data clear

命用途令缩写用途
generategen生成新变量
egenegen生成新变量(更多函数)
dropdrop删除变量或样本
replacereplace替换样本值
renameren给变量重命名
tabulatetab列出变量下的值/类别
summarizesu查看变量的描述性统计(均值、最大/小值、方差、样本量)
encode/decodeencode/decode给字符串编码成数值型变量/给数值型变量解码成字符串
mergemerge匹配数据
reshapereshapelong型面板数据 与 wide型数据互相转换
substrsubstr提取字符中内容
bysortbys分组进行操作
duplicates dropduplicates drop样本去重

Note: bysort & duplicates

1.数据的维度:valueijstvalue_{ijst}valueijst

fig1.查看面板数据的维度

2.加总到i,j,ti,j,ti,j,t层面

[i,j,s,ti,j,s,ti,j,s,t]→[i,j,ti,j,ti,j,t]

bysort country partner time : egen v = total(value)

bysort实现分组功能,黄色线一组,蓝色线一组。分组后加总,生成最右侧蓝色列
fig2.分组求和

3.删除变量

得到更高层面的变量vijtv_{ijt}vijt后,行业层面变量信息不再重要

keep country partner time v

fig3.扔掉其他变量

4.删除重复样本

fig4.样本去重

duplicates drop country partner time,force

fig5.数据处理结果

// a replaceble method
collapse (sum) v= value ,by(country partner time)

Note: merge

1.merge 1:1
use LEFT.dta
merge 1:1 from to using RIGHT.dta

fig6. merge 1:1 匹配

2.merge m:1

fig7.merge m:1 匹配

My info

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

mengke25

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值