👩🏽💻个人主页:阿木木AEcru
🔥 系列专栏:《Docker容器化部署系列》 《Java每日面筋》
💹每一次技术突破,都是对自我能力的挑战和超越。
一、GPT4o是什么?
GPT-4o 中的“o”代表“omni”——指的是 GPT-4o 的多模态。
二、官网简介
感兴趣的小伙伴可以到OpenAI官网查看具体内容,当然是需要魔法上网的。下面是我从官网中截取的一些内容。
我们宣布gpt-4o,我们的新旗舰模型,可以在音频,视觉和文本中进行实时推理。
GPT-4o(“o”表示“omni”)是朝着更自然的人机交互迈出的一步——它接受文本、音频和图像的任何组合作为输入,并生成文本、音频或图像输出的任何组合。它可以在232毫秒内对音频输入做出响应,平均320毫秒,这与人类在对话中的响应时间(在新窗口中打开)相似。它在英语文本和代码方面与GPT-4 Turbo的性能相匹配,在非英语语言文本方面有显著改进,同时在API中速度更快,价格便宜50%。与现有型号相比,GPT-4o在视觉和音频理解方面尤其出色。
在GPT-4o之前,您可以使用语音模式与ChatGPT通话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点