数据处理
数据标注
Label Stdio
Cvat
保姆级数据标注学习路径,数标注入门 CVAT 是一款开源的计算机视觉数据标注工具,采用 Web 客户端(浏览器界面)与后端服务器分离的架构:用户通过浏览器访问标注界面,后端服务器负责数据存储、任务管理和标注进度同步。支持多人协作标注,管理员可分配任务、设置权限,标注数据实时保存在服务器数据库中。 本地部署或私有服务器安装,而非在线使用——隐私安全性、代码可自由修改开发定制功能。 CVAT安装及图片标注使用详细教程[含踩坑记录]-CSDN博客
Praat
是一款跨平台的多功能语音学专业软件,主要用于对数字化的语音信号进行分析、标注、处理及合成等实验.
数据清洗与预处理
数据清洗常用
- 数据的读写:
pd.read_csv('文件路径')、pd.read_excel('文件路径') - 数据的探索与描述:
df.info()、df.describe() - 数据简单处理:去除数据间的空格、英文字母大小写的转换
- 重复值的处理:
duplicated()、drop_duplicates() - 缺失值的处理:删除缺失值、均值填补法、向前填充 / 向后填充、模型填补法(如随机森林)
- 异常值的处理:删除异常值的记录、作为缺失值处理、平均值修正 / 盖帽法修正、不处理(业务分析挖掘价值)
- 文本字符串的处理:去除前后空格处理、处理中间有,()之类的数据(
replace(',',''))、正则表达式提取所需数据 - 时间格式序列的处理:将系统时间格式化、系统时间和时间戳相互转换、年月日的提取
- Pandas:是数据清洗的核心工具,提供了丰富的数据结构(如 DataFrame)和函数。
- NumPy、 Scikit-learn、- 正则表达式(Python
re库)