楼主在HAM语音识别上迈出了第一步,但是我试了一下感觉识别效果应该还有优化空间。
感觉可以借鉴论坛里SSB Runner的思路,造一些数据来强化语音识别的效果:LLM生成通联底稿,TTS合成语音,Python小工具增加随机QRN、QSB等干扰模式,造一个一定规模的合成数据集来提升识别能力。
上面这个链路的几个难点:
- 通过适当的策略让LLM产生多样性的通联底稿
- 如何让TTS生成的语音符合爱好者的通联习惯(如Yaesu等品牌的读法、icao字母解释法、信号报告和Western Union 92码的不同读法)
- 如何让QRN、QSB贴合实际的干扰衰减模型
大概想了一下,感觉有一些潜在解法,看看有没有人愿意顺着这个思路发展一下。