BCG联手哈佛，前所未有验证GPT-4是把双刃剑，OpenAI总裁转发

liukang20243个月前 (04-28)吃瓜入口664

比尔·盖茨说 GenAI 将彻底革新人类常识作业，但终归是一个猜测。

经历层面，没有人真实了解最先进的大型言语模型（如 GPT-4）的悉数功用。没有人真实知道运用它们的最佳办法，或许它们在什么条件下会失利。咱们手里没有运用手册。在某些使命上，GenAI 十分强壮，但在其他使命上又会或彻底或奇妙地失利。除十分常运用 GenAI，不然你都搞不清楚自己遇到的究竟是哪种状况。最近，OpenAI 总裁 Greg Brockman 转发了一项被顶尖咨询公司波士顿咨询集团（ BCG ）称为「前所未有」的实证研讨，从经历层面证明了 GPT-4 对人类常识作业的真实影响。

「很多人一直在问 AI 是否真的对未来作业很重要。有篇新论文激烈标明答案是必定的。」他写道。

Greg Brockman 转发的是一篇宣布在 SSRN 上的作业论文 Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality ，由一支多学科的科研团队编撰，包含来自顶尖商学院的教授，比方宾夕法尼亚大学沃顿商学院、哈佛大学商学院、华威大学商学院以及 MIT 斯隆管理学院等。研讨团队调研采访了顶尖咨询公司波士顿咨询集团（ BCG ）的 758 名咨询参谋（约占集团咨询人员总数的 7%），企图找到 GPT-4 这类大型言语模型怎么影响杂乱、常识密集型使命体现的真凭实据。

成果发现，运用 GPT-4 的咨询师的成绩在各个维度（数量、速度和质量）上，都比没有运用东西的咨询师的体现好得多。

依然是一篇新的作业论文，因而或许存在过错或过错并且该论文没有通过同行评定，宣布在了SSRN。论文作者之一沃顿商学院教授 Ethan Molick 也在自己的博客上介绍了这篇研讨。参加者被分为两组：一小组被要求幻想他们在一家鞋业公司作业，他们的司理要求他们开发一种新产品并在会议上展现。该小组的参加者还被要求完结其他几项举动，包含列出从推介到发布的过程列表、创立营销标语以及编撰一篇 2,500 字的文章，描绘开发鞋子的端到端流程和经历教训。不难看出，不管是产品构思（「针对服务缺乏的商场或运动提出至少 10 个新鞋构思。」）、剖析（「依据用户细分鞋类职业商场。」）仍是写作和营销使命（「起草一份新闻稿发布你的产品的营销案牍。」）等，都归于 GPT-4 才干范围内的使命。而另一组则被要求处理事务问题，使命被规划得满足杂乱，以至于 GPT-4 在处理它时会犯错，因而它显着超出了 GPT-4 的才干鸿沟。在这两组中，研讨参加者被分为三种状况：无法运用 AI、能够运用 GPT-4 AI 以及能够运用 GPT-4 AI 并了解怎么运用 GPT。

一、才干鸿沟之内

研讨发现，针对「 GPT-4 才干范围内」的咨询事务，运用了 GPT-4 的组别作业体现显着进步（均匀完结的使命多了 12.2%，完结使命的速度进步了 25.1%），完结质量也更高（与对照组比较，质量进步了 40% 以上）。作者指出，GPT-4 东西的影响十分显着。蓝色组标明没有运用GPT-4 ，绿色组和赤色组均运用GenAI，其间赤色组接受了一些关于怎么运用GenAI的额定训练。三组成员在详细咨询使命中的体现成果就像三颗牙齿，比照激烈。从上述效果图来看，运用 GPT-4 与否（蓝色牙齿代表没有运用、绿色和赤色的牙齿部分代表运用）在终究效果呈现上，好像三颗牙齿，良莠不齐，Ethan Molick 称之为 GenAI 的「锯齿状前沿」。虚线代表平等难度的咨询使命，蓝色线条代表AI的才干鸿沟，在这条鸿沟内的使命，AI能够完结的很好；落在蓝色之外的使命，AI 就力所不逮了。不过，蓝色曲线自身也是改动不居的，例如，当 GPT-4 在 3 月份初次发布时，它十分拿手正确辨认素数，精确率高达 98%。但到了 7 月，只是几个月后，相同的测验得出的精确率只要 2%。这也是研讨人员榜首次清楚勾勒出 GenAI 才干鸿沟（上图蓝色曲线）——落在这条曲线（鸿沟）内的使命，都是 GPT-4 拿手并能辅佐人类做得更好的；面临鸿沟之外的使命，GPT-4 无能为力。这一发现也是这篇研讨的重要贡献之一。在此之前，人们对这道鸿沟的感知仍是混沌的或许说是片面幻想的。比方，相同是创造诗篇，GPT-4 能够写出不错的十四行诗（相似莎士比亚十四行诗）但却无法创造一首好的 50 个字的诗篇，为什么？现在清楚了——两个使命看似差不多，却正好落在鸿沟的不同两边——前者在才干鸿沟之内，后者在鸿沟之外。

这也解说了一些意想不到的使命 (如构思生成）对 GenAI 来说很简单，而比方数学这类使命却构成应战。Ethan Molick 总结说，发现具有 GPT-4 参谋的体现显着更好，不管咱们是否首要向他们扼要介绍 GenAI（图中的赤色部分）。并且，每个纬度的体现——时刻、数量和质量——都是如此。风趣的是，研讨人员还运用人类和 AI 两个评分体系对使命质量进行评分，成果「英雄所见略同」（如下面两个图所示）。

总共有54条线，由于有 18个咨询使命，每个使命又分别对应3个回归模型：运用AI（绿色）、未运用（蓝色）、运用并且获得了训练（赤色）。Y轴记载了相应得分（人类依据详细效果打分），能够清楚看到赤色的优势。

和上图的差异在于,这儿使命体现评分是机器人打的。除了上述内容，研讨人员还发现了一些其他风趣的东西，比方 GPT-4 还起到了技能水平调节器的效果。当评价得分最差的参谋开端运用 GPT-4 时，他们的体现进步起伏最大，到达 43%。得分高于均匀水平的优异参谋在运用东西后，体现依然有所进步，只不过增幅不是很大。全体而言，GPT-4 能够增强不同水平的参谋的事务体现。绿色的条形图陈述他们在评价使命中的体现，而蓝色的条形图标明他们在实验使命中的体现。y轴标明均匀值分数(1-10分)。当评价得分最差的参谋开端运用GenAI时，他们的体现涨幅最大，到达 43%。评价得分高于均匀水平的参谋，在运用AI东西后，体现依然有所进步，当然起伏并没有那么大。Ethan Molick 以为，还没有满足多的人考虑过，当一项技能能将一切职工事务体现进步到顶尖水平常将意味着什么。「这或许就像曩昔矿工采掘矿石，才干和水平有高有低，直到蒸汽铲诞生，一举抹平个人才干上的差异。AI 尽管还没有到那种程度，但进步常识生产者全体事务水平将发生严峻影响。」

二、才干鸿沟之外

接下来移步 GenAI 才干鸿沟之外，又会发生什么呢？为此，BCG 精心规划了一项使命，以保证 GenAI 无法得出正确答案。这个规划并不简单，正如论文中所说，「很难在前沿鸿沟之外的实验中规划一项使命，让人类一直胜过 AI。」不过，他们仍是确认了一项运用 AI 盲点的使命。三组被试被要求幻想在一家具有三个品牌的公司作业，手上也有虚拟公司的财务数据和采访记载，他们的使命是向公司CEO 写一份 500 到 750 字的备忘录，向老板解说应该出资哪些品牌来增加收入，并主张 CEO 采纳立异举动来改善所选品牌。成果，没有东西协助的人类参谋在 84% 的状况下处理了问题，运用 AI 的参谋的体现却更糟——只要60-70% 的状况下处理问题。运用 GPT-4 的参加者的体现显着比对照组差——约 23%。GPT-4 不只不能协助人类完结这项使命，并且实践上会严峻危害人类的体现，这又是一个严峻发现。

此图显现鸿沟外使命的均匀体现。红组反而倒数榜首，之前倒数的蓝组反而成了榜首。这与甩手掌柜状况有关。那么，究竟发生了什么？Ethan Molick 提到了一篇研讨过火依托 AI 成果拔苗助长的研讨 Falling Asleep at the Wheel: Human/AI Collaboration in a Field Experiment on HR Recruiters 。该研讨发现，运用高质量 AI 的招聘人员变得懒散、大意，并且判别才干也较差。与运用低质量 AI 或许不必 AI 的招聘人员比较，他们错过了一些优异的申请人，并做出了更糟糕的决议。论文称，当 AI 十分优异的时分，人类会封闭大脑并遵从 AI 的主张，而这更有或许是过错的。Ethan Molick 指出，针对落在 GenAI 鸿沟之外的使命，咨询参谋也乐得「甩手掌柜」，也会导致相似的成果——事实上，那些运用 GPT-4 的参谋比那些不答应运用 GPT-4 参谋得到的答案更不精确（但他们依然比不运用 GenAI 的参谋做得更好）。这标明，高技能脑力劳动者依然需求持续验证 AI，发挥「在运用 AI 时的认知尽力和专家判别」，而不是盲目地选用 AI 输出。

三、半人马和赛博格

综上，假如要像实验中的许多参谋在前沿内、外使命上都做得很好——防止 AI 圈套，又充分发挥了其所长——就要留意 GenAI 才干鸿沟，「知人善用」。在才干鸿沟内，人类给 GenAI 带来的价值十分小，但在才干鸿沟外，人类在没有 GenAI 的状况下作业能够进步功能。这份研讨标明，在人类与 GenAI 交融的一系列过程中，人类成功运用 GenAI 的方法呈现了两种共同的形式。一组参谋充任「半人马」，就像神话中的半马/半人生物相同，将他们的处理方案创立活动区分并托付给 GenAI 或他们自己。比方，你将决议选用什么计算技能，然后让 GenAI 处理生成图表。在这份 BCG 的研讨中，针对 GenAI 十分拿手的使命中，需求最少的人类参加。半人马会做他们最拿手的作业，然后将锯齿状鸿沟内的使命交给 GenAI 。

另一组参谋的行为更像是「赛博格（半机器人）」，将他们的使命流程与 GenAI 彻底集成，并不断与技能交互。你不只是派遣使命，而是将自己的尽力与 GenAI 交错在一起，在锯齿状的鸿沟上来回移动。运用 AI 起草文档便是一个典型比如，先发动一个语句让 GenAI 完结，这样你就会发现自己在与 GenAI 协同作业。

四、在前沿鸿沟上起舞

不管关于 GenAI 的实质和未来的哲学之争发展怎么，技能自身现已对咱们的实践作业方法发生了强壮的颠覆性。这不是一项需求打着「五年内改动国际、需求很多出资」的旗帜大肆宣传的新技能——它就在这儿，现在。精英参谋用来增强作业的东西，和每位正在阅览这篇博文的读者的东西，彻底相同。他们运用的东西很快就会比你能够运用的东西差得多，由于技能前沿不只是锯齿状，并且在不断扩大。下一年至少有两家公司会发布比 GPT-4 更强壮的模型，我对此很有决心。锯齿状的前沿正在往前推动，咱们有必要为此做好预备。即便放下这种说法或许引起的任何焦虑，也要留意 GenAI 的缺陷。人们在运用 AI 时，或许真的会「甩手掌柜」，没有留意到它的过错。并且，与其他研讨相同，咱们还发现，GenAI 的输出尽管质量高于人类，但在全体上也有同质化倾向。这便是为什么半机械人和半人马的协作方法很重要——它们答应人类与 GenAI 协作，发生比独自依托任何一方更多样、更好、更正确的成果。成为其间一员并不难，只要在作业使命中运用满足多的 GenAI，你就会开端看到这条锯齿状鸿沟，并开端了解它们在哪些方面好到可怕......以及它的缺乏之处。在我看来，问题不再是 GenAI 是否会重塑作业，而是咱们想要它意味着什么。咱们能够挑选怎么运用 GenAI 来协助使作业更有功率、更风趣、更有意义。但咱们有必要赶快做出这些挑选，这样咱们才干开端以符合品德和有价值的方法活跃运用它，就像机器人和半人马相同，而不只是被动地对技能革新做出反响。与此同时，这条锯齿状的前沿也总是变动不居，不断开疆扩土。论文传送门：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321参阅链接

https://www.bcg.com/publications/2023/how-people-create-and-destroy-value-with-gen-aihttps://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jaggedhttps://fortune.com/2023/10/06/generative-ai-chatgpt-collaboration-bcg/https://mitsloan.mit.edu/ideas-made-to-matter/how-generative-ai-can-boost-highly-skilled-workers-productivity

告发/反应