德克萨斯大学奥斯汀分校的一组研究人员利用生成人工智能，将录音中的声音转换为街景图像

12:50 · Dec 9, 2024 · Mon

德克萨斯大学奥斯汀分校的一组研究人员利用生成人工智能，将录音中的声音转换为街景图像。

这些生成的图像的视觉准确性表明机器可以复制人类对环境的音频和视觉感知之间的联系。

该团队利用来自北美、亚洲和欧洲城市的 YouTube 视频和音频，创建了来自不同地点的一对 10 秒音频剪辑和静态图像，并用它们来训练人工智能模型，该模型可以根据音频输入生成高分辨率图像。

https://news.utexas.edu/2024/11/27/researchers-use-ai-to-turn-sound-recordings-into-accurate-street-images/