跳到主要内容

数据处理

数据标注

Label Stdio

Cvat

保姆级数据标注学习路径,数标注入门 CVAT 是一款开源的计算机视觉数据标注工具,采用 Web 客户端(浏览器界面)与后端服务器分离的架构:用户通过浏览器访问标注界面,后端服务器负责数据存储、任务管理和标注进度同步。支持多人协作标注,管理员可分配任务、设置权限,标注数据实时保存在服务器数据库中。 本地部署或私有服务器安装,而非在线使用——隐私安全性、代码可自由修改开发定制功能。 CVAT安装及图片标注使用详细教程[含踩坑记录]-CSDN博客

Praat

是一款跨平台的多功能语音学专业软件,主要用于对数字化的语音信号进行分析、标注、处理及合成等实验.

数据清洗与预处理

数据清洗常用

  • 数据的读写pd.read_csv('文件路径')pd.read_excel('文件路径')
  • 数据的探索与描述df.info()df.describe()
  • 数据简单处理:去除数据间的空格、英文字母大小写的转换
  • 重复值的处理duplicated()drop_duplicates()
  • 缺失值的处理:删除缺失值、均值填补法、向前填充 / 向后填充、模型填补法(如随机森林)
  • 异常值的处理:删除异常值的记录、作为缺失值处理、平均值修正 / 盖帽法修正、不处理(业务分析挖掘价值)
  • 文本字符串的处理:去除前后空格处理、处理中间有,()之类的数据(replace(',',''))、正则表达式提取所需数据
  • 时间格式序列的处理:将系统时间格式化、系统时间和时间戳相互转换、年月日的提取
  • Pandas:是数据清洗的核心工具,提供了丰富的数据结构(如 DataFrame)和函数。
  • NumPyScikit-learn、- 正则表达式(Python re 库)