Web 应用的应用商店

找到合适的软件和服务。

使用 WebCatalog Desktop 将网站转化为桌面应用，并访问大量 Mac、Windows 专属的应用。使用空间组织应用，在多个帐户之间轻松切换，通过前所未有的方式提高工作效率。

深度学习软件 - 最热门应用 - 印度尼西亚

深度学习软件是指旨在促进深度学习模型的创建、训练和部署的一类软件工具和框架。深度学习是机器学习的一个子集，涉及训练多层人工神经网络（因此称为“深度”）来学习数据的表示。深度学习软件通常提供以下功能： * 神经网络架构设计：用于设计和定制深度神经网络架构的工具，包括指定层数、层类型（例如卷积、循环）以及层之间的连接。 * 数据预处理和增强：用于准备和预处理输入数据以训练深度学习模型的实用程序，包括标准化、数据增强和特征提取等任务。 * 模型训练和优化：在大数据集上训练深度学习模型的算法和技术，包括随机梯度下降等优化算法，以及正则化、dropout等处理过拟合的方法。 * 模型评估和验证：用于评估经过训练的模型在验证和测试数据集上的性能的工具，包括准确性、精确度、召回率和 F1 分数等指标。 * 部署和推理：通常通过与软件开发框架和平台集成，将经过训练的深度学习模型部署到生产环境中以推理新数据的设施。流行的深度学习软件框架包括 TensorFlow、PyTorch、Keras 和 Caffe。这些框架提供了高级抽象和 API，使开发人员和研究人员能够更轻松地构建和试验深度学习模型，而无需从头开始实现一切。

提交新应用

FaceCheck.ID

facecheck.id

使用 FaceCheck.ID 人脸识别搜索引擎在线查找任何人。通过照片搜索人员并验证您正在与他们声称的人交谈。

Claude

claude.ai

Claude by Anthropic 是 Anthropic 打造的下一代人工智能助手，经过培训，安全、准确、可靠，可帮助您完成最佳工作。

Otter

otter.ai

Otter 是一款智能笔记应用程序，可帮助您记住、搜索和分享您的语音对话。 Otter 创建的智能语音笔记结合了音频、转录、说话人识别、内联照片和关键短语。它可以帮助商务人士、记者和学生在会议、采访、讲座以及任何重要对话中更加专注、协作和高效。

Google Cloud Platform

google.com

Google 云平台 (GCP) 由 Google 提供，是一套云计算服务，运行在 Google 内部用于其最终用户产品（例如 Google 搜索、Gmail、文件存储和 YouTube）的同一基础设施上。除了一套管理工具外，它还提供一系列模块化云服务，包括计算、数据存储、数据分析和机器学习。注册需要信用卡或银行帐户详细信息。Google Cloud Platform 提供基础设施即服务、平台即服务和无服务器计算环境。 2008 年 4 月，Google 发布了 App Engine，这是一个用于在 Google 管理的数据中心中开发和托管 Web 应用程序的平台，这是该公司的第一个云计算服...

SpeechTexter

speechtexter.com

语音到文本转换器。用你的声音听写。用于使用语音打字的免费网络应用程序。支持 70 多种不同语言！

Jammable

jammable.com

通过 Jammable 在几秒钟内使用 AI 创建 AI 封面，数百个社区上传的 AI 语音模型可供创意使用！

Speechnotes

speechnotes.co

语音转文本 - 语音输入和转录。免费用语音做笔记，或当场自动转录音频和视频录音。安全、准确且超快。

AWS Console

amazon.com

Amazon Web Services (AWS) 是 Amazon 的子公司，以按量付费的方式向个人、公司和政府提供按需云计算平台和 API。这些云计算Web服务提供了各种基本的抽象技术基础设施以及分布式计算构建块和工具。其中一项服务是 Amazon Elastic Compute Cloud (EC2)，它允许用户通过互联网随时使用虚拟计算机集群。 AWS版本的虚拟计算机模拟了真实计算机的大部分属性，包括用于处理的硬件中央处理单元（CPU）和图形处理单元（GPU）；本地/RAM内存；硬盘/SSD存储；操作系统的选择；联网;以及预装的应用软件，例如网络服务器、数据库和客户关系管理 (CRM)...

DeepAI

deepai.org

为天生富有创造力的人类提供人工智能工具

FaceMRI

facemri.com

FaceMRI 是一家位于美国的人脸识别软件研究小组。 FaceMRI 是适用于 Mac 和 PC 的最先进的人脸识别搜索引擎。 FaceMRI 拥有一套面部识别软件，可以将面部分类为性别（男性、女性、非二元）、年龄段、年龄和种族。创建出勤图表和分析。可以通过+导入图像+导入视频+网络搜索（FB、LinkedIn、Instagram）+导入文件夹+网络摄像头和IP摄像头+物联网和安全摄像头来提取人脸。 + USB 密钥和外部设备 FaceMRI 利用人脸识别的力量来解锁图像和视频的分析。用户可以将该应用程序下载到 Mac 或 PC 上并导入图像和视频。它将从视频和图像中提取面孔和人物，用户可...

Jasper

jasper.ai

Jasper：商业品牌人工智能始终以您的品牌声音在您在线的任何地方创建内容。 Jasper 是您的创意人工智能助手，可以以您独特的品牌语气学习和写作。无论你是大胆地、厚脸皮地、正式地说话，还是只在网上说话（u do u）。此外，Jasper Everywhere 浏览器扩展使 Jasper 始终陪伴在您身边，从 CMS 到电子邮件、社交媒体，再到使用 Jasper API 的您自己的公司平台。最重要的是，Jasper 具有随着安全协议的发展而保持最新的内置安全功能，可确保您的数据安全和私密。利用人工智能创建内容的速度提高 5 倍。 Jasper 是最高质量的 AI 文案工具，拥有超过...

Alibaba Cloud

alibabacloud.com

阿里云是全球最大的云计算公司之一，在全球范围内提供可扩展、安全、可靠的云计算服务，通过全面的云产品和解决方案加速数字化进程。

Roboflow

roboflow.com

只需几十张示例图像，您就可以在 24 小时内训练出一个可用的、最先进的计算机视觉模型。 Roboflow 创建软件即服务产品，使计算机视觉构建变得简单。超过 250,000 名开发人员使用 Roboflow 来管理图像数据、注释和标记数据集、应用预处理和增强、转换注释文件格式、一键训练计算机视觉模型以及通过 API 或边缘部署模型。

Notta

notta.ai

Notta 是一款领先的 AI 转录工具和会议记录工具，可帮助将任何语音对话快速转录和总结为可操作的文本，支持 58 种语言。 * 重要消息：Airgram 已加入 Notta！除了转录视频/音频文件、现场演讲之外，Notta 还与 Zoom、Microsoft Teams 和 Google Meet 等领先的视频会议平台集成，以生成自动会议记录。它还允许用户查看、搜索、编辑、导出记录并与团队成员共享记录，以实现无缝协作。 Notta 使您能够最大限度地发挥每次对话的价值。

Deep Dream Generator

deepdreamgenerator.com

深梦发生器。了解卷积神经网络通过过度处理图像和增强特征可以生成什么。

Resemble.ai

resemble.ai

Resemble AI 使用专有的深度学习模型创建自定义 AI 语音，该模型使用文本转语音和语音转语音合成来生成高质量的 AI 生成的音频内容。 Resemble Localize 是我们的多语言本地化工具，可以翻译文本并将您的 AI 语音转换为多达 100 种语言。 Resemble Fill 是我们的生成填充（音频修复）功能，使您能够使用克隆的 AI 语音修改现有语音。 Fill 可用于修改程序化音频广告、动态流媒体广告插入 (SAI)、语音助手等。最近，我们凭借语音 AI 对 Netflix 获得艾美奖提名的《安迪·沃霍尔日记》的贡献，荣获 2023 年威比奖“最佳语音技术应用奖...

OpenAI Platform

openai.com

OpenAI 是一家人工智能研究和部署公司，致力于确保通用人工智能造福全人类。人工智能是一种极其强大的工具，其创建必须以安全和人类需求为核心。 OpenAI 致力于将利益一致性放在首位——置于利润之上。为了实现我们的使命，我们必须包容并重视构成全人类的许多不同观点、声音和经验。我们对多元化、公平性和包容性的投资是持续不断的，通过广泛的举措执行，并得到领导层的倡导和支持。在 OpenAI，我们相信人工智能有潜力帮助人们解决巨大的全球挑战，我们希望人工智能的优势得到广泛分享。

v7labs.com

V7 是一款专为计算机视觉和生成式人工智能应用而设计的人工智能数据引擎。该平台为企业培训数据提供基础设施，包括标签、工作流程、数据集，并具有人机交互培训功能。它提供多种注释属性来提高人工智能模型的数据质量。凭借自动注释、医学成像 DICOM 注释、数据集管理和模型管理等功能，V7 可以自动化并简化各种任务。其图像和视频标注工具旨在提高数据标注的精度。此外，它还支持自定义数据管道的构建和自动化，并具有用于自动化光学字符识别 (OCR) 和智能文档处理 (IDP) 工作流程的工具。V7 允许用户外包注释任务。它可用于农业、汽车、建筑、能源、食品饮料、医疗保健等各个行业。它提供实时团队注...

PromptSmart

promptsmart.com

PromptSmart 是一款提词器应用程序，可跟随您的声音，帮助您制作视频或演示文稿。 PromptSmart 是首款具有语音识别功能的提词器应用程序 - 最先进的公共演讲工具！ 2014 年 8 月推出！ PromptSmart 的诞生源于对公开演讲的热情。 PromptSmart 的创始人对 MBA 学生进行公开演讲艺术的指导和指导。我们意识到直观的扬声器控制提词器可以更好地支持许多演讲者，因此我们还认识到当今的移动设备可以满足这一需求。考虑到这一点，PromptSmart 应运而生。 PromptSmart 还满足了喜欢使用笔记而不是完整书面演讲的演讲者的需求。我们设计了数字记录...

PixLab

pixlab.io

PixLab 是领先的独立软件即服务平台，适用于机器视觉和媒体处理 API。我们帮助开发人员使用我们的网络和离线 SDK 实施智能应用程序。我们的 API 功能集包括但不限于护照和身份证扫描、内容审核、面部识别、光学字符识别以及许多其他 API 端点。

Hour One

hourone.ai

一小时通过将所有工作流程集中在一个人工智能驱动的平台上，彻底改变了企业的内容创建。我们拥有市场上最逼真的头像，具有自然的动作，生动地动画您的商业信息。我们的模板可针对任何品牌进行定制，使团队能够大规模制作个性化内容 - 无需设计或编辑技能。此外，凭借快速渲染和顶级安全性，Hour One 成为专为企业需求而设计的首要内容操作系统。过去需要几个月的时间，现在只需几分钟，并产生更高的参与度……通过“一小时”更聪明地工作，而不是更努力，并制作可产生影响力的个性化商业视频。 * HourOne 是一款视频创建工具，允许用户使用各种模板、声音和角色创建营销视频和演示文稿。 * 用户喜欢易用性、可供选择...

Dictanote

dictanote.co

我们通过使用语音输入帮助用户提高工作效率！ Dictanote 是一款现代笔记应用程序，具有内置语音到文本集成功能，让您可以轻松以 50 多种语言语音输入笔记。 Voice In 是语音转文本 Chrome 扩展程序，可让您使用语音在任何网站上的任何文本框中键入内容。

Encord

encord.com

Encord 是从数据中解锁人工智能的端到端平台。大规模安全地开发、测试和部署预测性和生成式人工智能系统，以释放机器学习的价值。创建高质量的训练数据、利用主动学习管道、评估模型质量、微调模型等等，全部集中在一个易于使用的平台上。 * 注释 - 通过可定制的工作流程和质量控制工具，有效地标记任何视觉模式并管理大规模注释团队。 * 主动 - 测试、验证和评估您的模型，并展示、整理和优先考虑最有价值的数据进行标记，以增强模型性能。 * Apollo - 大规模训练、微调和管理专有模型和基础模型，用于生产人工智能应用程序。 * 加速 - 按需、专业的标签服务可帮助您扩大规模。 Encord 受到 R...

Speech to Note

speechtonote.com

Speech To Note 是一款人工智能驱动的语音识别工具，可立即将语音转换为文本。我们的工具使用先进的语音转文本技术将您的文字转录成您可以编辑或共享的简洁摘要。体验我们人工智能驱动工具的强大功能，它可以立即将您的口语转化为简洁且信息丰富的摘要。

Gladia

gladia.io

Gladia 是一个人工智能知识基础设施平台，提供即插即用的 API，使用户能够充分利用他们的数据。 Speech-to-Text API Alpha 是他们的最新产品，它提供实时处理和低至 1% 的单词错误率。它基于 Open AI 的 Whisper 模型构建，能够在 10 秒内转录一小时的音频。该 API 免费提供，支持 99 种语言。 Gladia 由创始人兼首席执行官 Jean-Louis Queguiner 和联合创始人兼首席技术官 Jonathan Soto 领导。 Queguiner 拥有符号人工智能硕士学位，并独自构建了一个聊天机器人，用于在一个商店中管理、分类和统一所...

Landing AI

landing.ai

计算机视觉变得超级简单。在几分钟内创建并部署您的计算机视觉系统。无需复杂的编程或人工智能经验。

AssemblyAI

assemblyai.com

AssemblyAI 是一家语音人工智能公司，专注于构建能够转录和理解人类语音的最先进的新型人工智能模型。我们的客户（例如 CallRail、Fireflies 和 Spotify）选择 AssemblyAI 来基于语音数据构建令人难以置信的全新人工智能体验和产品。 AssemblyAI 模型和框架包括： - 人工智能语音转文字 - 音频智能，包括摘要、情绪分析、主题检测、内容审核、PII 编辑等 - LeMUR，一个将强大的法学硕士应用于转录语音的框架，您可以在其中提出复杂的问题，从转录中提取行动项目和回顾等等

Muse.ai

muse.ai

muse.ai 是一家视频搜索公司，正在构建先进的人工智能来组织全球视频。

Kili Technology

kili-technology.com

快速构建高质量数据集。企业相信我们能够简化他们的数据标记操作，并为其自定义模型、生成式人工智能和法学硕士构建最佳数据集 ___ 为什么选择奇力科技？你可能不知道这一点，但是： MNIST 的数据集错误率为 3.4%，仍然被超过 38,000 篇论文引用。 ImageNet 数据集及其众包标签的错误率为 6%。该数据集可以说是谷歌和 Facebook 开发的最流行的图像识别系统的基础。这些数据集中的系统错误会产生现实后果。在包含错误的数据上训练的模型被迫学习这些错误，从而导致错误的预测或需要对不断增加的数据进行重新训练以“消除”错误。每个行业都已经开始了解人工智能的变革潜力并进...

ai|coustics

ai-coustics.com

ai|coustics 是一款人工智能工具，可使用先进算法增强语音音频质量。他们的生成语音人工智能技术使用户能够在任何情况下获得专业级的音频质量，无论是录制播客、视频会议还是传输音频。该工具不仅可以抑制背景噪音，还可以消除房间共振、补偿低质量耳机并修复数字伪影以提高口语的清晰度和质量。它甚至可以恢复音频信号丢失的成分和频率。该人工智能工具非常适合任何以音频为中心的应用程序，包括电信、播客平台、音频录制或传输硬件以及语音转文本系统。利用其 HD-SPEECH API 和 SDK，将 ai|coustics 集成到音频应用程序中非常简单，并且可用于 Windows、Mac、Linux、...

PodcastAI

podcastai.com

PodcastAI 是一个使用先进的人工智能工具来简化播客制作的平台，提供快速转录、说话者识别、元数据生成和支持人工智能主持人交互等功能。

SuperAnnotate

superannotate.com

SuperAnnotate 是领先的平台，可利用最高质量的训练数据更快地构建、微调、迭代和管理您的 AI 模型。借助先进的注释和 QA 工具、数据管理、自动化功能、本机集成和数据治理，我们使企业能够构建数据集和成功的 ML 管道。与 SuperAnnotate 的专家和专业管理的注释团队合作，可以帮助您快速提供高质量的数据，以构建性能最佳的模型。

Tune AI

tunehq.ai

Tune AI 正在推动 GenAI 在企业中的采用。我们得到了 Accel、Flipkart Ventures、Together Fund、Speciale Invest、Techstars 和其他知名投资者的支持 TuneChat：我们的聊天应用程序由开源模型提供支持 TuneStudio：我们为开发人员微调和部署法学硕士的游乐场 ChainFury：我们的开源提示引擎可在 GitHub 上找到

ArtPro

artpro.com

ArtPro 是一款艺术品库存管理软件，旨在帮助在线编目、存档、跟踪、共享和存储艺术品。

SpeechFlow

speechflow.io

SpeechFlow 是一款尖端的语音转文本工具，可为企业和个人提供无与伦比的准确性和效率。我们先进的人工智能技术可确保将音频和视频内容精确转录为书面文本，支持多达 14 种语言，而不仅仅是英语。主要特点： * 多语言转录：支持 14 种语言，克服语言障碍。在不同的语言环境中获得准确可靠的转录。 * 一体化转录解决方案：API和在线平台：针对企业和个人，SpeechFlow提供语音识别API接口和在线转录功能，简单易用。 * 准确的转录：受益于行业领先的准确性、了解行业特定术语以及全面可靠转录的背景。 * 行业特定模型：我们训练有素的语音识别模型专为满足各个行业的独特需求而定制，可提高医疗...

Capsolver

capsolver.com

Capsolver 的自动验证码求解器提供最实惠、最快速的验证码求解解决方案。您可以使用其简单的集成选项快速将其与您的程序结合起来，从而在几秒钟内获得最佳结果。 Capsolver 每分钟可回答超过 1000 万个验证码，成功率为 99.15%。这意味着您的自动化或抓取将具有 99.99% 的正常运行时间。如果您有大量预算，您可以购买验证码包。以市场上最低的价格，您可以获得多种解决方案，包括 reCAPTCHA V2、reCAPTCHA V3、hCaptcha、hCaptcha Click、reCaptcha click、Funcaptcha Click、FunCaptcha、aws ca...

Talkatoo

talkatoo.com

Talkatoo 正在为医疗专业人员重塑听写功能。无论您是在兽医行业还是人类医疗行业，Talkatoo 都是适合您的语音转文本软件解决方案。 Talkatoo 在 Windows 和 Mac 上兼容，适用于您可以键入的任何领域（包括 PIM 和 EHR），并且非常易于使用。 * Talkatoo 是一款专为临床使用而设计的桌面听写解决方案，重点是将语音转换为文本，包括专业词汇和医学术语。 * 审阅者赞赏 Talkatoo 能够准确地将语音转换为文本（包括复杂的医学术语），并且其用户友好的界面有助于提高创建医疗记录的效率和生产力。 * 审阅者指出，Talkatoo 在处理大量指令时可能会很慢，...

Shownotes

shownotes.io

Shownotes 是一款人工智能驱动的工具，可以自动总结播客剧集并创建包含完整文字记录和字幕文件的登陆页面。它使用 chatGPT 转换 YouTube 自动字幕并生成令人难忘的引言，还可以根据脚本创建博客文章。 Shownotes 提供三种计划：免费、Creator 和 Pro。免费计划每月提供一份表演笔记、一份摘要记录、一个登陆页面，并且所有表演都是公开的。 Creator 计划每月提供两个表演笔记、一份摘要记录、一个登陆页面、将节目设为私有的功能、登陆页面编辑器、完整记录以及 ums & ahs。 Pro 计划提供无限的表演笔记、摘要记录、登陆页面、将节目设为私有的功能、登陆页面...

Dataloop

dataloop.ai

Dataloop 是一个尖端的人工智能开发平台，它正在改变组织构建人工智能应用程序的方式。 Dataloop 的平台经过精心设计，旨在满足处于 AI 开发流程核心的开发人员的需求，使数据和 AI 模型的使用更加简单、直观。 Dataloop 的综合解决方案涵盖整个人工智能开发生命周期，提供简化数据管理、注释、模型选择和部署的工具和功能。 Dataloop 的平台以协作为重点，允许开发人员、数据科学家和工程师无缝协作，打破传统孤岛并促进创新。主要功能包括用于构建数据管道的直观拖放界面、庞大的预构建人工智能元素和模型库以及强大的数据管理和注释功能。这些功能旨在帮助开发人员快速原型设计、迭代...

Krisp

krisp.ai

Krisp 是一款智能应用程序，旨在提高在线会议和通话的效率和清晰度。主要是利用人工智能进行降噪，有效消除在线交互过程中的背景噪音、语音和回声。此功能可确保在各种环境下（从个人对话到团队会议和呼叫中心）进行清晰、高质量的通信。除了噪音消除之外，Krisp 还提供实时会议转录，这提高了可访问性并有助于维护记录。此外，它还具备生成简洁会议笔记和摘要的能力，有效充当AI会议助手。另一个值得注意的功能是 Krisp 的会议录制功能，它可以自动录制所有通信应用程序中的虚拟会议。 Krisp 专门针对呼叫中心环境提供了 AI 口音本地化功能，可以实时转换座席的口音以匹配客户的母语口音，从而实现更...

Clarifai

clarifai.com

Clarifai 是一家独立的人工智能公司，专注于计算机视觉、自然语言处理和音频识别。 Clarifai 成立于 2013 年，是最早成立的深度学习平台之一，为非结构化图像、视频、文本和音频数据提供人工智能平台。其平台支持整个人工智能生命周期，包括图像、视频、文本和音频数据的数据探索、数据标记、模型训练、评估和推理。 Clarifai 总部位于华盛顿特区，利用机器学习和深度神经网络自动识别和分析图像、视频、文本和音频。 Clarifai 使用户能够通过 API、移动 SDK 和/或本地解决方案将人工智能技术应用到他们的产品中。

npm

npmjs.com

npm 是由 npm, Inc. 维护的 JavaScript 编程语言的包管理器。npm 是 JavaScript 运行时环境 Node.js 的默认包管理器。它由一个命令行客户端（也称为 npm）和一个公共和付费私有包的在线数据库（称为 npm 注册表）组成。

AI Voice Detector

aivoicedetector.com

AI语音检测器是一款语音验证工具，可帮助检测真伪并过滤AI生成的语音。它让用户安心并防止音频操纵、错误信息、语音诈骗和口头评估中的抄袭。 * AI Voice Detector 是一款旨在区分计算机生成的声音和真实人类声音的工具，专门针对业务用例，确保客户服务交互中内容的真实性和可靠的报告。 * 审阅者对该软件针对音频操纵和语音诈骗的保护实施、其易用性、快速处理以及无缝处理各种音频文件格式而没有任何问题的能力表示赞赏。 * 用户提到了一些限制，例如系统要求音频文件长度至少为 8 秒且没有背景音乐、偶尔会将真声误识别为假声，反之亦然，以及软件集成能力有限。

Speechlogger

speechlogger.com

Speech Logger 是一款基于网络的语音识别和语音翻译软件，包括自动标点符号、自动保存、时间戳、文本内编辑功能、音频文件转录、导出选项等。 * Speechlogger 是一款专为演讲、会议或活动的自动实时字幕和翻译而设计的工具，具有自动标点符号、发言者识别和情绪分析等附加功能。 * 审阅者赞赏 Speechlogger 即使在嘈杂的背景下也能准确转录语音的能力、其用户友好的设计以及自动标点符号、说话人识别和情绪分析等独特功能，他们认为这些功能优于某些付费转录工具。 * 用户遇到的问题包括影响免费版本性能的广告、偶尔出现的翻译错误、转录不常见口音时的准确性较低、缺乏语音控制以及情绪分...

Picture to Text

picturetotext.info

他们的图像到文本转换器使将图像转换为可编辑文本变得简单而高效。无论您有扫描文档、手写笔记还是任何其他视觉内容，他们的工具都可以轻松处理。通过从各种图像类型中可靠地提取文本，享受高精度。其用户友好的界面确保每个人都可以轻松使用它。此外，它们支持多种语言，因此您可以无缝处理各种语言的文本。其中一项突出的功能是能够提交批量图像，在处理大量数据时节省您的时间。它们还支持多种图像格式，使其适用于任何项目。最重要的是，他们的工具完全免费使用。使用照片到文本转换器，您可以： * 轻松将图像转换为文本，节省时间 * 通过快速、准确的结果提高生产力 * 使用易于使用的工具简化您的工作流程使用我们...

Face Age

getfaceage.com

Face Age利用尖端技术分析面部皮肤属性，捕捉皱纹、毛孔、痤疮、眼袋等细节，了解每位顾客的皮肤。 Face Age 旨在轻松集成到现有的电子商务平台中。 Face Age 提供各种集成选项，使设置过程顺利高效。无论您经营的是小型精品店还是大型市场，Face Age 都能无缝适应您的技术要求。

SoundHound

soundhound.com

作为对话智能的领先创新者，我们提供独立的语音人工智能平台，使各行业的企业能够为其客户提供一流的对话体验。 SoundHound 的先进语音 AI 平台以专有的 Speech-to-Meaning® 和 Deep Meaning Understanding® 技术为基础，提供卓越的速度和准确性，使人类能够通过自然说话的方式与产品和服务进行交互，就像彼此交互一样。 SoundHound 受到全球各地公司的信赖，包括现代、梅赛德斯-奔驰、Pandora、高通、Netflix、Snap、Square、LG、VIZIO、起亚和 Stellantis。

NVIDIA Developer

developer.nvidia.com

使用生成式人工智能构建应用程序。使用可在任何地方运行的生产就绪 API 体验、原型化和部署 AI。

SpeechAce

speechace.com

在 SpeechAce，我们致力于通过多功能语音识别技术帮助语言学习者提高口语能力。我们开发了世界上第一个语音识别 API，不仅可以帮助语言学习者评估他们的口语技能，还可以确定他们需要改进的确切领域。虽然我们的语音识别 API 的第一个版本仅提供发音分数，但我们现在增强了我们的产品，包括完整的语音转录以及对词汇、语法、流畅性、连贯性和相关性等更高水平技能的评估。 SpeechAce 拥有多元化的全球客户群，其中包括一些最小（但最热门）的初创公司以及世界上一些最大的语言学习提供商。

Jupitrr

jupitrr.com

Jupitrr AI Video Maker 是一款人工智能驱动的工具，允许创作者将他们的录音和播客转换为个性化视频。借助此工具，用户可以在短短几分钟内轻松创建令人惊叹的视频内容。 Jupitrr AI Video Maker 背后的 AI 技术可以自动为创作者的视频生成素材视频，包括素材、图表、字幕等。该工具拥有类似于编辑 Word 文档的用户友好界面，无需复杂的时间线，使视频编辑变得轻而易举。它提供了一键访问庞大视频库的便利性，为用户省去了搜索合适素材的麻烦。 Jupitrr AI Video Maker 支持多种语言，包括西班牙语、印地语、法语、普通话等，可供世界各地的广大创作者使...

MobileEngine

services.tineye.com

TinEye 是一家图像搜索和识别公司。我们是计算机视觉、模式识别、神经网络和机器学习方面的专家。我们的使命是让您的图像可搜索。

Deepgram

deepgram.com

Deepgram 是一家基础人工智能公司，其使命是理解人类语言。我们让任何开发人员只需调用 API 即可获得最先进的语音 AI 转录和理解功能。我们的模型提供最快、最准确的转录以及摘要、情感分析和主题检测等上下文功能。除此之外，开发人员还可以： * 处理直播或预先录制的音频 * 转录为数十种语言 * 为独特的用例训练自定义模型 * 通过统一的 API 访问深度 NLU * 使用我们的 SDK 以任何编程语言构建 * 部署在本地或 DG 的托管云上 * 获取可扩展的 GPU 基础设施以进行训练和推理 Deepgram 是令人自豪的 NVIDIA 合作伙伴和 Y Combinator 公...

Speechmatics

speechmatics.com

Speechmatics 是全球领先的语音智能专家，结合人工智能和机器学习的最新突破，释放人类语音的商业价值。全球范围内的企业都在使用 Speechmatics 来准确理解人类级别的语音并将其转录为文本，无论人口统计、年龄、性别、口音、方言或位置如何，都可以实时在录制媒体上进行。将这些文字记录与最新的人工智能驱动的语音功能相结合，企业可以构建利用摘要、主题、情绪、章节、翻译等的产品。 Speechmatics 每月以 50 种语言处理全球 300 多年的转录。其神经网络在语音识别领域开创了机器学习的先河，考虑了声学、语言、方言、多个说话者、标点符号、大写、上下文和隐含含义。 Speech...

Altered

altered.ai

Altered 是一款下一代音频编辑器，它将多种语音 AI 技术集成到用户友好的应用程序中，为各个行业（包括播客、视频游戏工作室和电子学习）制作高质量的语音内容。

Dictalogic

dictalogic.com

Dictalogic 提供专门的模块，包括音频到文本、语音到文本、对话到文本和任务委派，所有这些都通过一个仪表板进行。 * 纯音频：传统的音频听写，其中音频被录制并发送给转录员，转录员可以在任何地方（包括在家工作）。 * 音频到文本：数字转换可实现语音到文本的动态转换。在这种方法中，音频被记录并发送以进行转录，并且音频在到达转录者之前被转换为文本。我们提供多种作业选项供您探索。 * 语音转文本：我们还提供实时语音转文本的功能。工作流程与其他听写相同，可以发送给任何转录员。 * 对话到文本：Dictalogic Conversation 模块是一种语音到文本解决方案，结合了语音识别、说话...

Lambda

lambdalabs.com

Lambda 提供计算来加速人类进步。我们是一支深度学习工程师团队，致力于构建世界上最好的 GPU 云、集群、服务器和工作站。我们的产品为工程师和研究人员提供了处于人类知识前沿的动力。客户包括英特尔、微软、谷歌、亚马逊研究院、腾讯、凯撒医疗机构、麻省理工学院、斯坦福大学、哈佛大学、加州理工学院、洛斯阿拉莫斯国家实验室、迪士尼和国防部。

Phonexia

phonexia.com

Phonexia 是一家创新型捷克软件公司，成立于 2006 年，其愿景是通过语音生物识别和语音识别技术释放语音潜力。通过与布尔诺理工大学著名语音研究小组的密切合作，Phonexia 正在将最新的科学突破转化为由深度神经网络驱动的高精度、最先进技术的日常现实。 Phonexia 为政府、法医和商业部门提供一系列先进软件，支持全球 60 多个国家的创新项目。

Faceplusplus

faceplusplus.com

Face++ 是一个提供计算机视觉技术的平台，使您的应用程序能够更好地阅读和理解世界。

Vatis Tech

vatis.tech

以卓越的准确性和经济性彻底改变语音识别。 Vatis Tech 的 API 提供先进的语音到文本技术，使用专有的深度学习语音识别算法，自动将音频或视频文件转换为文本，准确率超过 95%。 Vatis Tech 为敏捷初创公司、大型企业、播客、记者和开发人员等提供语音转文本 API 引擎和 Web 平台。这使得解决方案和服务提供商能够将技术集成到他们的应用程序中，无论行业或用例如何。 * 部署在本地或云端 * 使用我们的 API 以任何编程语言构建 * 获取可扩展的 GPU 基础设施以进行训练和推理 * 上下文功能，例如说话人分类、实体检测、标点符号以及大写或数字转换。 * Web 应用程...