语音speaking大学mooc

python文本转语音

pip install gtts (wind_2021) J:\test>pip install gtts Collecting gtts Downloading gTTS-2.3.1-py3-none-any.whl (28 kB) Collecting requests<3,>=2.27 Usi ......
语音 文本 python

中国石油大学(北京)第三届“骏码杯”程序设计竞赛题解

中国石油大学(北京)第三届“骏码杯”程序设计竞赛题解 感谢大家的参与,我是本次比赛所有$10$道题目的出题人,在接下来的题解中,所有C++与Python的标程均由我本人编写,因为我本人完全不懂Java,所以Java标程是由ChatGPT根据我其他语言的标程改编的,过程中由我提出改进建议,最终Chat ......
题解 程序设计 第三届 石油 程序

CVPR 2023 | 标注500类,检测7000类!清华大学等提出通用目标检测算法UniDetector

前言 本文向大家介绍一篇今天新出的非常有意思的 CVPR 2023 的论文,相比于传统的目标检测算法,训练时标注了几个类别,就只能检测几个类别,这篇论文属于通用目标检测的范畴。通过在训练过程中图像和文本对齐,它可以自动扩展到检测那些视觉标注中没有出现的类别。这将有效帮助视觉系统目标检测能力的迁移,感 ......
算法 UniDetector 目标 大学 CVPR

如何跟踪语音领域的技术

语音顶会 ICASSP 所有年份论文集下载地址:https://ieeexplore.ieee.org/xpl/conhome/1000002/all-proceedings Interspeech 所有年份论文集下载地址:https://www.isca-speech.org/archive/ 期 ......
语音 领域 技术

中国地质大学提出基于边的视觉里程计,不牺牲精度,显著提高效率

以下内容来自小六的机器人SLAM学习圈知识星球每日更新内容 点击领取学习资料 → 机器人SLAM学习资料大礼包 #论文# EdgeVO: An Efficient and Accurate Edge-based Visual Odometry 论文地址:https://arxiv.org/pdf/2 ......
精度 地质 效率 视觉 大学

语音识别模块

https://item.taobao.com/item.htm?spm=a1z09.2.0.0.7ea92e8dSnWrPM&id=664937015643&_u=m1qf7bf5ed2f LU-ASR01常见问题:1.可以自定义唤醒词吗? 答:可以,最多定义5个唤醒词。唤醒词至少2个字。 2.可 ......
模块 语音

语音信号的时域、频域理解以及时域图、频谱图和语谱图理解

参考博客https://blog.csdn.net/Robin_Pi/article/details/109204672 ......
时域 频谱 语音 信号

大学C/C++考试速成法

问题描述 如何在有限的时间内,尽可能提高自己上岸几率。 原则 一切以上岸为目的,其他别管那么多。 4个方面 1.牢记目的,对提分没有用的题目、方法不要去看; 2.找学长或学姐要往年的题目,题目的类型都是差不多的,去写写看看,记住重要的不是题目,重要的是掌握方法; 3.遇到不会的题目,最快的方法是问老 ......
速成法 大学

[Python]语音识别媒体中的音频到文本

@ 准备工作 安装python3环境 申请一个可用的语音转换API,此篇以Microsoft Azure Speech为例 在Microsoft Azure 市场中搜索speech关键字找到语音服务。并创建好服务实例 在资源中找到创建的服务并查看 在此处点击显示密钥,我们要记住key值和locati ......
语音 文本 音频 媒体 Python

口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)

不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可以使用科大讯 ......

飞桨paddlespech 语音唤醒初探

PaddleSpeech提供了MDTC模型(paper: The NPU System for the 2020 Personalized Voice Trigger Challenge)在Hey Snips数据集上的语音唤醒(KWS)的实现。这篇论文是用空洞时间卷积网络(dilated tempo ......
paddlespech 语音

使用 SpeechT5 进行语音合成、识别和更多功能

我们很高兴地宣布,SpeechT5 现在可用于 🤗 Transformers (一个开源库,提供最前沿的机器学习模型实现的开源库)。 SpeechT5 最初见于微软亚洲研究院的这篇论文 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for ......
语音 SpeechT5 SpeechT 功能 更多

OpenAI Java SDK——chatgpt-java-v1.0.4更新支持GPT-3.5-Turbo,支持语音转文字,语音翻译。

简介 chatgpt-java是一个OpenAI的Java版SDK,支持开箱即用。目前以支持官网全部Api。支持最新版本GPT-3.5-Turbo模型以及whisper-1模型。增加chat聊天对话以及语音文件转文字,语音翻译。 开源地址:https://github.com/Grt1228/cha ......
语音 chatgpt-java-v chatgpt 文字 OpenAI

吾剑未尝不利,国内Azure平替,科大讯飞人工智能免费AI语音合成(TTS)服务Python3.10接入

微软Azure平台的语音合成(TTS)技术确实神乎其技,这一点在之前的一篇:含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入),已经做过详细介绍,然则Azure平台需要信用卡验证,有一定门槛,对国内用户不太友好,放眼神州,科大讯飞的讯飞开放平台也 ......
人工智能 不利 人工 语音 Python3

闻其声而知雅意,基于Pytorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)

前文回溯,之前一篇:含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入),利用AI技术将文本合成语音,现在反过来,利用开源库Whisper再将语音转回文字,所谓闻其声而知雅意。 Whisper 是一个开源的语音识别库,它是由Facebook AI ......
雅意 人工智能 人工 语音 Pytorch

含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)

所谓文无第一,武无第二,云原生人工智能技术目前呈现三足鼎立的态势,微软,谷歌以及亚马逊三大巨头各擅胜场,不分伯仲,但目前微软Azure平台不仅仅只是一个PaaS平台,相比AWS,以及GAE,它应该是目前提供云计算人工智能服务最全面的一个平台,尤其是语音合成领域,论AI语音的平顺、自然以及拟真性,无平 ......
幽兰 人工智能 人工 语音 Python3

智能语音之远场关键词识别实践(二)

上篇(智能语音之远场关键词识别实践(一))讲了“远场关键词识别”项目中后端上的实践。本篇将讲在前端上的一些实践以及将前端和后端连起来形成一个完整的方案。下图是其框图:(麦克风阵列为圆阵且有四个麦克风,即有四个语音通道) 从上图可以看出,前端主要包括去混响、声源定位和波速形成(beamforming) ......
语音 关键词 关键 智能
共887篇  :30/30页 首页上一页30下一页尾页