专访“AI画图神器”Midjourney创始人：AI是想象力引擎、不是洪水猛兽 | 游戏大观

【GameLook专稿，未经授权不得转载！】

GameLook/AI生成的艺术正在开始悄然重塑文化。过去几年里，机器学习系统从文本指令生成图形的能力在质量、精准度和表现力方面都有了很大的提升。如今，这些工具已经走出了实验室，进入了大众用户手中，他们正在创造心得视觉表达语言，也很可能带来新麻烦。

目前只有几十种顶级图像生成AI，它们的制作既复杂又昂贵，需要访问数以百万计的图片用来训练系统（它寻找图片模式并进行复制），还需要很大的计算工作量（成本各不相同，但百万美元的价格并不是不可能）。

目前，这些系统的输出产品出现在杂志封面或用于生成模仿的时候，往往被视为新奇的。但正如我们所说，艺术家和设计师们正在将该软件集成到他们的工作流程之中，短时间之内，AI生成和AI增强的艺术将无处不在。版权问题（谁拥有图片归属权？算谁制作的？）和潜在的危险（如有偏见的输出或者AI生成的错误信息）必须迅速处理。

不过，随着技术成为主流，一家公司将会因为其优势赢得一些赞誉：一个名为Midjourney的10人实验室，做了一个同名AI图片生成器，可以通过Discord聊天服务器使用。尽管这个名字听起来可能有些陌生，你们或许已经看到过Midjourney的系统输出的作品出现在社交媒体上。为了生成你自己的图片，你只需要加入Midjourney的Discord服务器，输入一个指示符，系统就会为你做出图片。

Midjourney创始人David Holz接受采访时表示，“很多人问我们，为什么不直接做一个iOS拍照应用呢？但人们想要一起做事情，如果你在iOS平台做这件事，就必须做你自己的社交网络，这是很难的。所以，如果你想要自己的社交体验，Discord是很好的选择。”

注册一个免费账户，你可以得到25个点，能看到所有在公共聊天室里生成的图片。随后，你必须付费，10美元或者30美元每月，取决于你想要制作的图片数量，不管它们是否属于你私人所有。

不过，Midjourney最近正在对其模式进行扩张，允许任何人使用自己的AI图像生成器创建自己的Discord服务器。“我们正在从Midjourney宇宙走向Midjourney多元宇宙”，Holz认为这个结果将是令人不可思议的：AI增强创意大量涌现，但这还只是冰山一角。

在接受外媒TheVerge采访时，Holz谈到了他对于Midjourney的雄心壮志，包括打造“想象力引擎”的原因，以及为何认为AI更像水而非猛虎。

以下是Gamelook编译的完整采访内容：

Q：首先介绍一下你自己和Midjourney，你的背景是什么、怎么进入这个领域的？Midjourney是什么？一个公司还是一个社区？你如何描述它？

David Holz：我的名字是David Holz，是个连续创业者。简短来说，我的经历是：我在高中的时候做过设计生意，大学学的是物理和数学，我在NASA和Max Planck工作的时候攻读了流体力学博士学位。有一次我不知所措，把所有的事情都放在一边。所以我搬到了旧金山，在2011年左右创办了一家名为Leap Motion的科技公司。我们销售那些可以在手上做动态捕捉的设备，创造了很多手势界面空间。

我创立了Leap Motion并且经营了12年，（但）最终，我希望寻找一个不同的环境而不是一家风投支持的大公司，我离开并创办了Midjourney。现在，它的规模还很小，我们只有10个人，没有投资者，而且我们也不是以财务回报为动机的。我们没有压力销售什么东西也不用成为上市公司，只是为了未来十年能够有一个家，可以从事很多比较有意义的、酷的项目，希望不仅是对我，还对世界有意义，并且享受乐趣。

图片来源：Pixabay

我们在从事很多不同的项目，它将是一个广泛而多元的实验室。但我们是有主题的：比如反射、想象力和协作。我们开始以这种图片创造的东西而出名，我们不认为这真的是有关艺术或者做deepfake，而是，我们如何拓展人类的想象力？那意味着什么？当计算机比99%的人类都更擅长视觉想象的时候意味着什么？这并不意味着我们将停止想象。汽车比人类更快，但并不意味着我们就停止了行走，当我们在长途运输大宗商品的时候，我们需要引擎，无论是飞机、轮船还是汽车。我们将这项技术视为想象力的引擎，所以这是一个非常积极而且人性化的事情。

十年内，你就能买一台带有巨大AI处理器的Xbox，所有的游戏都是用梦想创作

Q：很多实验室和公司都在从事将文字转化为图片这样的工作，谷歌有Imagen、OpenAI有DALL-E，还有一些像Craiyon这样的小项目。这个技术从哪里来的、你们认为未来它将走向何方，还有，Midjourney在这个领域的愿景与其他人有什么不同？

David Holz：所以，AI领域有两个重大突破导致了图片生成工具的出现，一个是理解语言，另一个是创作图片的能力。当你将这两件事结合起来的时候，你可以通过对语言的理解创作图片。我们看到了这些技术的出现，看到了这些趋势，这些技术将比人类更擅长制作图像，而且速度会非常快。未来一两年内，你可以实时制作内容，而且是30fps、高分辨率内容。这将是昂贵的，但它会是可能的。然后，在十年内，你将能购买一台带有巨大AI处理器的Xbox，所有的游戏都是梦想。

从原始技术的角度来看，这些只是事实，是没有办法回避的。但从人类的视角来看，这到底意味着什么？“所有游戏都是梦想，一切都是可延展的，我们将有AR头盔”这到底意味着什么？所以这其中的人文因素是深不可测的，而且这个软件达到我们真正可以使用的地步，这是完全不存在的，我们认为这是我们的焦点。

我们在去年9月开始测试原始技术，并立即发现了不同的事情。我们很快发现大多数人并不知道他们想要的是什么。你说，“这里有一台机器，你可以用它想象任何事物，你想要什么？”他们会说，“狗”。你接着问“真的吗？”他们回答“粉色的狗”。所以，你给他们一张小狗的照片，他们会收到图片，然后再去做其他事。

然而，如果你把他们放在一个小组中，他们会说“狗”，其他人会说“太空狗”，另外一个人可能会说“Aztec太空狗”。然后，突然之间，人们理解了各种可能性，你正在创造这种增强的想象，一个让人们可以学习和发挥这种新能力的环境。所以我们发现，人们真的非常喜欢共同想象，因此我们将Midjourney做成了社交，我们有一个巨大的Discord社区，最大的Discord社区之一，有超过140万人在这些共享空间当中一起想象事物。

Q：你认为人类群体与机器群体并行吗？作为这些AI系统的一种平衡？

David Holz：然而，并没有真正的机器群体，每次当你要求AI做一个图片的时候，它都不会真正记得或者知道曾经做过的任何事。它没有意志、没有目标、没有倾向、没有讲故事的能力，所有的自我、意志和故事，都是我们的。它就像是一个引擎，引擎哪里都不会去，但人们有地方要走，这有点像人的蜂巢思维，有超级技术动力。

在社区内，有数百万人制作图像，他们在相互模仿，默认情况下，每个人都可以看到其他人的图像。你必须支付额外的费用才能离开社区，通常，如果这样做，往往意味着你是某种类型的商业用户。所以每个人都在相互模仿，这里有所有的新美学，几乎像是审美加速主义，它们在不停的旋转，它们不是AI美学，而是新的、有趣的人类美学，我认为会传播到全世界。

Q：这种开放性是否也有助于确保安全？因为有很多讨论谈到，AI图像生成器被用来生成可能有害的东西，无论是直观上令人讨厌的图像，比如血腥和暴力，还是错误信息，你们如何阻止这种事请的发生？

David Holz：是的，这是令人惊奇的，当你把某人的名字写在他们制作的所有图片上，他们会对如何使用这些图片更加严谨，这有很大的帮助。

尽管如此，我们仍有一些问题，不幸的是，像社交媒体在其他地方工作的方式，你可以引发愤怒来谋生，有些人进入社区是有动机的，为隐私付费，然后花一个月的时间尝试创造最令人愤怒和恐怖惊人的图像，然后试图在社交媒体上发布。然后，我们必须阻止这些事，说，“这不是我们的目的，这不是我们想要的社区类型。”

我们每次看到，就会把它清理出去。必要的情况下，我们会设置敏感词，我们收集了像真实感超高这样的词汇，我们封禁了与之相近的所有词汇。

Q：那么，真实的面孔呢？因为这是另一个制造错误信息的载体，这个模型是否会生成真实的面孔？

David Holz：它会生成名人面孔或者类似的东西。但我们通常不会，我们有一个默认的风格和外观，它是具有艺术性的和美丽的，很难将模型推离这一点，意味着你现在不能强迫它制作deepfake。或许你投入100个小时尝试，可以找到一些正确的词汇组合让它看起来很真实，但你必须努力让它看起来像一张照片。就我个人而言，我不为人世界需要更多的deepfake，但它需要更多美丽的东西，所以我们专注于让一些变得美丽和具有艺术感。

整个领域只训练了20多个模型，所以这还是实验型科学

Q：你们是从哪里为模型找到训练数据的？

David Holz：我们的训练数据基本上和所有人都一样，很大程度上来自于互联网。几乎每一个大型的AI模型都会提取所有能得到的数据、文本和图像。从科学角度来说，我们在这个领域的早期阶段，每个人都会抓取所有能够抓到的东西，把它们放在一个巨大的文件中，然后用它们来训练一些巨大的东西，但没有人真正知道这对数据中有什么事真正重要的。

例如，我们最近的更新让一些变得看起来好很多，你可能会觉得我们是通过向训练数据投入大量绘画完成的。但我们没有那么做，我们只是基于人们喜欢用这个模型做的事情使用了用户数据，没有人为美术的投入。但科学上来说，我们还处于非常早期的阶段，整个领域还只有几十个模型在训练，所以这是实验型科学。

Q：你们的训练成本是多少？

David Holz：我想说的是，在这个领域训练模型，不能说到具体成本，但可以说一般情况下的事情。现在每次图像模型的训练成本大概是5万美元，你永远不会一次尝试就得到正确结果，所以必须尝试3次、10次或者20次，而且你的确需要很多次尝试。这就是结果，它很昂贵，超出了大多数大学的可以承担的支出，但也不会贵到需要十亿美元或者一台超级计算机。

我很确定的是，训练和运行成本都会降下来，但它运行的成本实际上非常高，每张图片都需要钱，每个图片都是在一台2万美元的服务器上生成，我们必须按分钟租借这些服务器。我认为从来没有一项这样的服务是为消费者提供的，不考虑这些的情况下，它们在15分钟内使用了数千万亿次次的操作。可能需要10倍，我认为它比一般消费者接触过的任何东西都更具计算能力，这实际上有些疯狂。

Q：谈到训练数据，这里有一个有争议的方面是所有权的问题。美国现行法律规定，不能对AI生成的艺术进行版权保护，但我们不太清楚人们是否可以对训练数据中使用的图像进行版权保护。艺术家和设计师们努力形成一种特定的风格，但如果他们的作品现在可以倍AI机器人复制会发生什么？你们对这件事有过讨论吗？

David Holz：我们社区里有很多的艺术家，可以说他们整体对这个工具的评价是正向的，他们认为这会让他们有更高的生产效率，并大幅改善他们的生活。我们不断地与他们聊天并且询问，“你们还好吗？是否觉得这个工具好用？”我们也会在办公时间，我和100人通过语音聊4个小时，只是回答他们的问题。

很多使用该平台的知名艺术家们，他们都说了同样的话，就是这个工具很有趣。他们说，“我觉得Midjourney是一名艺术生，它有自己的风格，当你引用我的名字创作一张图片的时候，就像是要求一名艺术生通过我的艺术作品启发创作一些东西。总的来说，作为一名艺术家，我想要让人们通过我做的东西获得灵感。”

Q：但肯定会存在巨大的自我选择偏见，因为活跃在Midjourney Discord服务器的艺术家肯定是对它感到兴奋的人。那些说，“这是胡说八道，我不想让我的艺术被这些巨大的机器所吞噬”的人怎么办？你会允许这些人将自己的作品从你们的系统中移除吗？

David Holz：我们还没有这样的流程，但我们对这个问题保持开放。目前为止，我想说的是社区里并没有那么多的艺术家，还没有那么深度的数据集。那些在我们模型里创作的艺术家一直在给我们这样的回应：“我们真的没有被这个吓到”。现在，它太新了，我认为用耳朵和动态是有意义的，所以我们和人们经常交谈。实际上，我们现在从艺术家们那里得到最重要的一个要求就是，它们希望更好地窃取他们的风格，这样他们就可以将模型用作他们艺术创作流程的一部分，这让我感到惊讶。

其他（AI图像）生成器可能有些不同，因为他们试图创作一些看起来相同的东西，但我们有自己默认的风格，所以生成的作品看起来就像是一个艺术生得到其他人启发创作的内容。我们做这件事的原因是，你总有默认风格，如果你说了“狗”，我们就给你一张狗狗的照片，这有些枯燥。从一个人类角度来说，你为什么想要它？直接到搜索引擎搜图片就可以了，所以我们希望做一些看起来具有艺术性的东西。

Q：这是你在我们对话中多次提到的，Midjourney的默认风格，我对于每个AI图像生成器都有自己的文化缩影、有自己的偏好和表达方式这样的想法很感兴趣。你如何形容Midjourney的独特风格，以及你们是如何有意发展它的？

David Holz：（笑）这个问题有点针对性。我们尝试了很多东西，每次尝试新东西的时候都会渲染一千个图像，而且没有真正的意图，它应该看起来很漂亮，对具体事物和模糊事物有所反应。我们绝对不希望它看起来像照片，我们可能会在某个节点制作一个现实版本，但我们不希望成为默认版本。完美的照片现在让我有点不舒服，不过我可以看到你想要更真实东西的正当理由。

我认为这种风格会有些异想天开、抽象和怪异，它倾向于你可能不会要求的方式混合，以令人惊讶和美丽的方式实现。它倾向于使用大量的蓝色和橘色，有一些喜欢的颜色和面孔，如果你给出一个比较模糊的指令，它会选择自己最喜欢的那个。所以我们不知道为什么会发生这种情况，但它喜欢话一张特别的女人脸，我们不知道她来自12个训练数据集中的哪一个，但人们只是称之为“Miss Journey”。还有一张男人脸，有些方正、很有气派，他也出现过，但还没有名字，但这就像是一个有着自己面孔和偏好颜色的艺术家。

Q：谈到这些默认的东西，图片生成领域一个需要处理的很大问题就是偏见。有研究表明，如果你让AI图像模型画一个CEO，这个CEO永远都是白人男性，当你让它输出一名护士，护士永远是一个女性，通常还是有色皮肤。你们如何处理这种挑战？这对于Midjourney来说是一个重大问题，还是说那些希望将这些系统进行变现的公司更担忧？

David Holz：好吧，Miss Journey更多的是一个问题而非一个功能，我们现在正在做一些事情，试图打破这些脸谱化，给你更多的变化。但这也有不利之处，比如我们有一个版本完全打破了Miss Journey，但如果你真的想，假设让施瓦辛格扮演Danny DeVito，它也会破坏这个请求。比较棘手的是，在不消除所有表达类型的情况下让它发挥作用。因为，加一个开关提高多样性很容易，但想要让它在恰当的时候打开却很难。

我能说的是，无论你想要什么多样性，创造一个图像从来没有这么容易改过，你只需要用一个词。你和创作之间总是只有一个词汇的距离，比如，我曾用过“非洲赛博朋克巫师”进行创作，它看起来很漂亮、很酷，我只需要一个词就可以告诉模型你想要什么。

图片来源：Pixabay

人们完全误解了AI是什么

Q：退一步说，你已经谈到很多在Midjourney当中做的工作，可以说是不切实际的。我意思是说，他们当然是实际的，但你们的动机更加抽象，关于人类与AI的关系、我们如何用人类的方式使用AI。AI领域的一些人倾向于以最宏大的角度看待这项技术，他们把它比作神祇，你对此有何感想？

David Holz：曾几何时，我一直都在试图搞清楚“什么事Midjourney的AI图像生成器？”这个问题，因为你可以说他就像是一个想象力引擎，但这里还有其他东西。第一个诱惑是从艺术的角度来看待它，问：这是摄影的发明吗？因为当照片发明的时候，绘画就看起来很奇怪，任何人都可以拍摄一张脸的照片，所以现在为什么要画出来呢？

是这样吗？不，肯定不是，这一定更加奇怪。现在，它给人的感觉更像是一个引擎的发明：你每分钟都可以做大量的图像，你在想象的道路上奔腾，这感觉很好。但如果你再向前一步，不是一次做四张图片，而是做1000或者1万张，那就不一样了。有一天，我这么做了，我用几分钟做了4万张图片，突然间，我面前出现了如此广阔的自然，所有这些不同的生物和环境，我用了4小时才看完它们，这个过程就像是溺水。我觉得自己是个小孩子，看着游泳池的深处，知道自己不会游泳，而且知道了泳池的深度。突然之间，Midjourney给人的感觉不像是引擎，而是一股急流。我用了几个星期的时间来处理，我想了又想，我意识到它实际上就是水。

现在，人们完全误解了AI是什么。他们将AI视为猛虎，是危险的，可能会吃掉我，它是一个对手。水里也有危险，你可能会溺水，但湍急的河水与老虎的危险是截然不同的，水有危险，没错，但你可以在里面游泳、可以坐船，可以用水坝拦住发电。水是危险的，但它也是文明的驱动力，我们作为指导如何与水一起生活和工作的人类，会活的更好，这是一个机会。水没有意志、没有怨恨，是的，你可能溺水，但这并不意味着我们应该禁止水的存在，当你发现一个新的水源，这真是一件好事。

Q：那么Midjourney是一个新水源？

David Holz：是的，当你用这种方式说出来的时候有些吓人。

我认为，作为一个物种，我们共同发现了一种新水源，Midjourney试图搞明白的是，我们如何为人类使用这种水源？我们如何教人们在其中游泳、怎么造船？我们如何筑堤、如何从害怕溺水的人变成未来冲浪的孩子？我们在做的是冲浪板而不是水，我认为这有着深刻的意义。

如若转载，请注明出处：http://www.gamelook.com.cn/2022/09/496840/