java调用科大讯飞流式(websocket)语音识别接口

  要使用讯飞的能力,需先注册讯飞开发平台账号(讯飞官网参见https://www.xfyun.cn/)。

  再创建应用,点击右上角的控制台 -> 创建新应用:

 

  每个应用都有一个appId,由这个appId关联对应接口鉴权信息,包括apiKey和apiSecret。比如我创建了一个应用“我的转写机” -> 点击该应用 -> 点击左边语音识别里的语音听写(流式版):

 

  往下拉,点击“文档”,接口说明和demo代码都在:

   

  进入文档后拉到底部,点击链接下载demo和音频:

 

 

  修改demo里的appId、apiKey和apiSecret、音频文件所在路径,就可以直接跑了:

  这个接口是websocket协议的,它是把音频文件一段一段的发送到讯飞做语音识别的,最后识别出来后再返回完整内容,如果你想直接获取最后的接口,可以用闭锁阻塞主线程,在websocket关闭时释放闭锁,让主线程继续:

  调用类:

        CountDownLatch iatCountDown = new CountDownLatch(1);
        WebSocket webSocket = client.newWebSocket(request, new WebIATWS(fullFileName, appId, result, iatCountDown, from));

        // 阻断主线程,等待websocket识别完所有语音流
        iatCountDown.await();

  WebIATWS:

复制代码
    @Override
    public void onMessage(WebSocket webSocket, String text) {
        super.onMessage(webSocket, text);
        System.out.println(text);
        Gson json = new Gson();
        IatResult resp = json.fromJson(text, IatResult.class);
        if (resp != null) {
            if (resp.getCode() != 0) {
                log.error("code=> :{}, error=> :{}, sid= :{}", resp.getCode(), resp.getMessage(), resp.getSid());
                return;
            }
            if (resp.getData() != null) {
                if (resp.getData().getResult() != null) {
                    Text te = resp.getData().getResult().getText();
                    System.out.println(te.toString());
                    try {
                        decoder.decode(te);
                        log.info("send continue, result: {}", decoder.toString());
                    } catch (Exception e) {
                        log.error("call onMessage failed, error :{}", e.getMessage());
                        return;
                    }
                }
                if (resp.getData().getStatus() == 2) {
                    //说明数据全部返回完毕,可以关闭连接,释放资源
                    log.info("session finish.");
                    dateEnd = new Date();
                    log.info("cost time: {} ms", dateEnd.getTime() - dateBegin.getTime());
                    log.info("final result: {}", decoder.toString());
                    ResultData data = new ResultData();
                    data.setResult(decoder.toString());
                    listenResult.setData(data);
                    countDownLatch.countDown();
                    decoder.discard();
                    webSocket.close(1000, "");
                }
            }
        }
    }
复制代码

 

posted on   不想下火车的人  阅读(7980)  评论(11编辑  收藏  举报

编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 字符编码:从基础到乱码解决
历史上的今天:
2017-08-14 使用resteasy作为dubbox消费者

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示