ChatGPT解锁新技能：图像语音双驱动，轻松搞定表单自动填写

5 月 23, 2026 #ChatGPT

ITCOW牛新网 5月23日消息，OpenAI今日宣布为ChatGPT解锁了一项极具实用价值的新功能。用户现在只需上传一张表单图片，无论是通过语音还是文字描述关键信息，系统便能精准识别表单中的各个字段，并自动完成内容填充。这一功能的推出，标志着AI助手在理解复杂视觉信息和多模态交互方面迈出了重要一步，将繁琐的填表工作变成了轻松的对话体验。

据ITCOW牛新网了解，这项新技能成功串联起了图像理解、语音交互与内容生成这三大工作流。在官方发布的演示案例中，用户上传了一份健身会员申请表，仅需口头告知ChatGPT自己的姓名、住址以及健身目标，AI便能瞬间读懂图片中的表格结构，并将语音指令转化为文字填入对应位置。整个过程无需人工逐项录入，更像是在与一位全能助手进行自然交流。更令人惊喜的是，在表单填写完毕后，系统还能根据上下文继续生成相关的配套图片，展现了极高的智能化水准。

尽管该功能表现惊艳，但目前仍存在一定的技术局限性。现阶段ChatGPT生成的输出结果主要是静态图片，而非可直接编辑的PDF或交互式文档，这意味着在某些办公场景下，用户可能仍需进行人工二次转录。此外，系统对上传文件的质量要求较高，若表单图片不够清晰，可能会导致字段提取错误或填写内容不准确。不过，这一创新无疑极大地提升了处理日常文书工作的效率，为未来AI助理的深度应用描绘了令人期待的蓝图。

人工智能

ChatGPT解锁新技能：图像语音双驱动，轻松搞定表单自动填写

相关文章

2026 世界人工智能大会 7 月 17 日上海启幕：展览首破 10 万平米，全球首发超 300 款 AI 新品

Claude Sonnet 5 遭大量投诉：爱唱反调还爱说教，拒做任务反指用户“搞欺诈”

xAI 正式更名为 SpaceXAI 并入 Space X 体系，Grok 与 X 平台纳入航天公司 AI 业务版图

更多资讯

小米汽车官宣新品牌命名「SkyNomad」：寓意“天空游牧者”

谷歌 Pixel 11 系列 8 月 12 日发布：全系 256GB 起步取消 128GB，Pro Fold 首度提供 1TB 版

高德开放平台世界地图升级：新增步行与摩托车导航，全球 POI 突破 3 亿覆盖出海配送场景

Momenta 量产智驾搭载量突破 100 万台，合作车企覆盖奔驰宝马奥迪及多家自主品牌