一、何使音频提取阶段

1. 使用「音频提取器」App(如推荐的用苹音频官方应用)

  • 打开应用后导入视频或音频文件,支持从相册、器进文件或其他应用直接选择。行音
  • 选择专业版功能解锁「自定义采样参数」,频的频率设置采样率(如44.1kHz或48kHz)、分析通道数(单声道/立体声)和码率(影响频率分辨率)。何使高采样率可保留更高频段信息(例如48kHz可分析至24kHz频率)。用苹音频
  • 导出音频为无损格式(如WAV或FLAC),器进避免压缩格式(如MP3)损失高频细节。行音
  • 2. 快捷指令辅助提取(适合简单场景)

  • 通过「快捷指令」创建自动化流程:选择视频文件→调用音频提取模块→保存至指定目录。频的频率此方法适合批量处理但无法调整采样参数。分析
  • 二、何使频率分析工具选择

    1. Audio Spectrum Analyzer dB RTA(第三方应用)

  • 支持FFT(快速傅里叶变换)分析,用苹音频可调分辨率(256-16384点),器进高点数提升低频精度。
  • 提供多种窗函数(汉宁窗、布莱克曼窗等),抑制频谱泄露。例如汉宁窗适用于稳态音频,矩形窗适合瞬态分析。
  • 实时显示频谱图,可跟踪峰值频率,支持1/3倍频程模式用于噪声评估。
  • 2. 专业音频处理库(进阶开发)

  • 使用Python的`PyAudioAnalysis`库:导入提取的音频后,通过`stFeatureExtraction`函数计算MFCC、频谱质心等时频特征。
  • 结合`librosa`库生成Mel频谱图,自定义刻度(Slaney/ETSI风格)以适应不同听觉模型,需注意窗函数归一化方式对能量分布的影响。
  • 三、操作示例:提取对话音频并分析基频

    1. 提取阶段

  • 在「音频提取器」中导入会议视频,设置采样率16kHz(覆盖人声80-8kHz范围),导出为WAV文件。
  • 2. 分析阶段

  • 在Audio Spectrum Analyzer中选择FFT模式,设置8192点+汉明窗,观察300Hz-3kHz区间能量聚焦情况,定位说话人基频(男声典型值100-150Hz)。
  • 使用`pyAudioAnalysis`执行`audioSegmentation.silence_removal`去除静音段,再通过`audioFeatureExtraction`计算短时基频曲线。
  • 四、注意事项

  • 采样定理:确保采样率≥2倍目标最高频率,例如分析乐器需≥40kHz采样率。
  • 窗长选择:20-30ms窗长平衡时频分辨率,音乐分析建议50ms以捕捉低频谐波。
  • 环境干扰:使用外接麦克风时,通过应用内校准功能消除设备固有噪声。
  • 通过上述方法,可灵活实现从基础到专业的音频频率分析。如需深度定制算法(如CQT时频分析),可参考`audioFlux`库的C++/Python接口实现音乐特征的多尺度分析。