快速上手GPT-4o！免费使用指南（2024年12月最新）

Kangk...大约 4 分钟

快速上手GPT-4o！免费使用指南（2024年12月最新）

GPT-4o简介

北京时间 5 月 14 日，OpenAI 举办了春季发布会。此次活动中推出了新的旗舰模型“GPT-4o”！据 OpenAI 的首席技术官穆里·穆拉蒂（Muri Murati）所讲，GPT-4o 不但继承了 GPT-4 的强大智能，而且还进一步增强了文本、图像以及语音的处理能力，能给用户带来更为流畅、自然的交互体验。比如说，像处理复杂的文本创作，GPT-4o 可能会表现得更加出色；在图像识别和理解方面，它或许能提供更精准的结果；而对于语音交互，也会让人感觉更加舒适和自然。

GPT-4o的能力

GPT-4o 具备在音频、视觉和文本领域进行实时推理的能力。其能够接纳文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。对于音频输入，GPT-4o 最短响应时间为 232 毫秒，平均响应时间为 320 毫秒，此响应速度与人类在对话中的表现相近。

文本能力

在文本能力方面，GPT-4o 在 0 次 COT MMLU（常识问题）上创下了 88.7% 的高分纪录。所有相关评估均采用了我们全新的简单评估方式（在新窗口中打开）。此外，在传统的 5 次无 CoT MMLU 中，GPT-4o 同样取得了 87.2% 的新高成绩。（注：3400b（在新窗口中打开）仍处于训练阶段）

音频能力

GPT-4o 在语音翻译领域确立了新的领先优势，于 MLS 基准测试中表现优于 Whisper-v3 。

视觉能力

GPT-4o 在视觉感知基准测试中达成了最先进的性能水平，全面超越此前的模型。所有视觉评估次数均为 0 次，其中包括 MMMU、MathVista 和 ChartQA 的 0 次 CoT 评估。

语音交互

GPT-4o 在语音交互领域获取了重大突破。其运用了前沿技术，极大地提升了响应速度，令对话愈发流畅自然。于近期的发布会上，OpenAI 呈现了 GPT-4o 在语音对话中的性能，它能够近乎实时地应答问题，并借助文本转语音技术予以朗读，给予了一种沉浸式的交流感受。另外，GPT-4o 还能够对说话的语气加以调节，从夸张戏剧型到冰冷机械型，以契合不同的交流情境。令人欣喜的是，GPT-4o 还拥有唱歌的能力，增添了更多的趣味和娱乐元素。

如何使用gpt-4o

环境准备

ke xue上网。 (PS：如果还不会，推荐https://ikuuu.pwopen in new window, 有免费版，当然最好买个收费的，相对其他的也不贵)
open AI账号。最好准备一个openAI账号，才能拥有对话记录功能。参考这篇教程免费获取: openAI账号获取。并登录自己的账号。

登录chatgpt

当下，GPT-4o 的文本和图像功能已在 ChatGPT 中推出，用户能于 ChatGPT 平台免费体验 GPT-4o 的相关功能，不过免费版存在使用次数限制，Plus 用户可享有 5 倍的调用额度（ps：如果没有openAI账号，可以参考这篇2分钟升级ChatGPT plus）。

在接下来的数周内，OpenAI 打算在 ChatGPT Plus 中推出带有 GPT-4o 的 Voice Mode 新版本。此版本将作为 ChatGPT Plus 的一个 alpha 版提供给 Plus 用户。此外，GPT-4o 还会通过 API 向开发者供应，作为文本和视觉模型。开发者能够借助 API 将 GPT-4o 集成至自身的应用程序中，而且 GPT-4o 在 API 里相较 GPT-4Tubo 更迅速、更经济，并有更高的速率限制。至于 GPT-4o 的音频和视频功能，OpenAl 会在未来数周及数月持续构建技术基础设施、通过训练提升可用性并保障安全性，而后发布这些功能，并逐步向公众开放。

（ps：如果不需要对话记录功能，可以选择wildcard随心用，价格是官网价五折：ChatGPT plus随心用open in new window）