Google出AI杀招！回馈强化学习（RLAIF）要逼死人工标记公司？

Google 最近提出了一种用大模型替代人类进行偏好标记的方法，称为 AI 回馈强化学习（RLAIF），这一技术将来真的会逼死那些靠人工「拉框」的资料标记公司吗？本文源自 SinoDAO 举大名耳所着文章，由 Foresight News 整理撰文。
（前情提要：监狱囚犯变成AI训练员？芬兰被批剥削劳力）
（背景补充：ChatGPT背後的非洲血汗工：判读「暗网残虐内容」、时薪不到 2 美元）

本文目录

如果说，当下的生成式 AI，是一个正在茁壮成长的孩子，那麽源源不断的资料，就是其喂养其生长的食物。

而资料标记，就是制作这一「食物」的过程。然而，这一过程真的很卷，很累人。

进行标记的「标记师」不仅需要反覆地识别出影象中的各种物体、颜色、形状等，有时候甚至需要对资料进行清洗和预处理。

随着 AI 技术的不断进步，人工资料标记的局限性也日益显现。人工资料标记不仅耗时耗力，而且品质有时难以保障。

为了解决这些问题，Google 最近提出了一种用大模型替代人类进行偏好标记的方法，称为 AI 回馈强化学习（RLAIF）。

研究结果表明，RLAIF 可以在不依赖人类标记的情况下，产生与人类回馈强化学习（RLHF）相当的改进效果，两者的胜率都是 50%。同时，RLAIF 和 RLHF 都优於监督微调（SFT）的基线策略。

这些结果表明，RLAIF 不需要依赖於人工标记，是 RLHF 的可行替代方案。

那麽，倘若这一技术将来真的推广、普及，众多还在靠人工「拉框」的资料标记企业，从此是否就真的要被逼上绝路了？

资料标记现状

如果要简单地总结目前中国标记行业的现状，那就是：劳动量大，但效率却不太高，属於费力不讨好的状态。

标记企业被称为 AI 领域的资料工厂，通常集中在东南亚、非洲或是中国的河南、山西、山东等人力资源丰富的地区。

为了控制成本，标记公司的老板们会在县城里租一块场地，摆上电脑，有订单了就在附近招人兼职来做，没单子就解散休息。简单来说，这个工种有点类似马路边上的临时装修工。

在工位上，系统会随机给「标记师」一组资料，一般包含几个问题和几个回答。之後，「标记师」需要先标记出这个问题属於什麽型别，随後给这些回答分别打分并排序。

此前，人们在谈论国产大模型与 GPT-4 等先进大模型的差距时，总结出了中国资料品质不高的原因。

但资料品质为何不高？一部分原因，就出在资料标记的「流水线」上。

目前，中文大模型的资料来源是两类，一类是开源的资料集；一类是通过爬虫爬来的中文网际网路资料。

中文大模型表现不够好的主要原因之一就是网际网路资料品质，比如，专业人士在查询资料的时候一般不会用百度。

因此，在面对一些较为专业、垂直的资料问题，例如医疗、金融等，就要与专业团队合作。

可这时，问题又来了：对於专业团队来说，在资料方面不仅回报周期长，而且先行者很有可能会吃亏。

例如，某家标记团队花了很多钱和时间，做了很多资料，别人可能花很少的钱就可以直接打包买走。

面对这样的「搭便车困境」，中国大模型纷纷陷入了资料虽多，但品质却不高的诡异困境。

既然如此，那目前国外一些较为领先的 AI 企业，如 OpenAI，他们是怎麽解决这一问题的？

其实，在资料标记方面，OpenAI 也没有放弃使用廉价的密集劳动来降低成本。

例如，此前就曝出其曾以 2 美元 / 小时的价格，雇佣了大量肯亚劳工进行有毒资讯的标记工作。

但关键的区别，就在於如何解决资料品质和标记效率的问题。

具体来说，OpenAI 在这方面，与中国企业最大的不同，就在於如何降低人工标记的「主观性」、「不稳定性」的影响。

延伸阅读：ChatGPT背後的非洲血汗工：判读「暗网残虐内容」、时薪不到 2 美元

OpenAI 的方式

为了降低这样人类标记员的「主观性」和「不稳定性」，OpenAI 大致采用了两个主要的策略：

1、人工回馈与强化学习相结合

这里先说说第一点，在标记方式上，OpenAI 的人工回馈，与中国最大的区别，就在於其主要是对智慧系统的行为进行排序或评分，而不是对其输出进行修改或标记。

智慧系统的行为，是指智慧系统在一个复杂的环境中，根据自己的目标和策略，做出一系列的动作或决策。

例如玩一个游戏、控制一个机器人、与一个人对话等。

智慧系统的输出，则是指在一个简单的任务中，根据输入的资料，生成一个结果或回答，例如写一篇文章、画一幅画。

通常来说，智慧系统的行为比输出更难以用「正确」或「错误」来判断，更需要用偏好或满意度来评价。

而这种以「偏好」或「满意度」为标准的评价体系，由於不需要修改或标记具体的内容，从而减少了人类主观性、知识水平等因素对资料标记品质以及准确性的影响。

诚然，中国企业在进行标记时，也会使用类似「排序」、「打分」的体系，但由於缺乏 OpenAI 那样的「奖励模型」作为奖励函式来优化智慧系统的策略，这样的「排序」和「打分」，本质上仍然是一种对输出进行修改或标记的方法。

2、多样化、大规模的资料来源渠道

中国的资料标记来源主要是第三方标记公司或科技公司自建团队，这些团队多为本科生组成，缺乏足够的专业性和经验，难以提供高品质和高效率的回馈。

而相较之下，OpenAI 的人工回馈则来自多个渠道和团队。

OpenAI 不仅使用开源资料集和网际网路爬虫来获取资料，还与多家资料公司和机构合作，例如 Scale AI、Appen、Lionbridge AI 等，来获取更多样化和高品质的资料。

与中国的同行相比，这些资料公司和机构标记的手段要「自动」和「智慧」得多。

例如，Scale AI 使用了一种称为 Snorkel 的技术，它是一种基於弱监督学习的资料标记方法，可以从多个不精确的资料来源中生成高品质的标签。

同时，Snorkel 还可以利用规则、模型、知识库等多种讯号来为资料新增标签，而不需要人工直接标记每个资料点。这样可以大大减少人工标记的成本和时间。

在资料标记的成本、周期缩短的情况下，这些具备了竞争优势的资料公司，再通过选择高价值、高难度、高门槛的细分领域，如自动驾驶、大语言模型、合成数据等，就可不断提升自己的核心竞争力和差异化优势。

如此一来，「先行者会吃亏」的搭便车困境，也被强大的技术和行业壁垒给消弭了。

标准化 VS 小作坊

由此可见，AI 自动标记技术，真正淘汰的只是那些还在使用纯人工的标记公司。

尽管资料标记听上去是一个「劳动密集型」产业，但是一旦深入细节，便会发现，追求高品质的资料并不是一件容易的事。

以海外资料标记的独角兽 Scale AI 为代表，Scale AI 不仅仅在使用非洲等地的廉价人力资源，同样还招聘了数十名博士，来应对各行业的专业资料。

资料标记品质，是 Scale AI 为 OpenAI 等大模型企业提供的最大价值。

而要想最大程度地保障资料品质，除了前面提到的使用 AI 辅助标记外，Scale AI 的另一大创新，就是一个统一的资料平台。

这些平台，包括了 Scale Audit、Scale Analytics、ScaleData Quality 等。通过这些平台，客户可以监控和分析标记过程中的各种指标，并对标记资料进行校验和优化，评估标记的准确性、一致性和完整性。

可以说，这样标准化、统一化的工具与流程，成为了区分标记企业中「流水线工厂」和「手工小作坊」的关键因素。

在这方面，目前中国大部分的标记企业，都仍在使用「人工稽核」的方式来稽核资料标记的品质，只有百度等少数巨头引入了较为先进的管理和评估工具，如 EasyData 智慧资料服务平台。

如果在关键的资料稽核方面，没有专门的工具来监控和分析标记结果和指标，那对资料品质的把关，就仍旧只能沦为靠「老师傅」眼力见的作坊式水准。

因此，越来越多的中国企业，如百度、龙猫资料等，都开始利用机器学习和人工智慧技术，提高资料标记的效率和品质，实现人机协作的模式。

由此可见，AI 标记的出现，并不是中国标记企业的末日，而只是一种低效、廉价、缺乏技术含量的劳动密集型标记方式的末日。

📍相关报导📍

Google新AI模型「Gemini」将推出！曝算力比GPT-4强五倍，能打败OpenAI？

十大AI论文精选：人工智慧如何驱动市场经济政策、实现利益最大化？

OpenAI和微软训练ChatGPT再遭集体诉讼，被控盗用版权作品、个资

Leave a Reply Cancel reply

Recent Posts

Categories

注册优惠