数据并行性在机器学习中样本通常被假设为独立同分布

tixido2842 · Post by **tixido2842** » Mon Oct 30, 2023 7:38 am

并且在随机选择的数百个模型的小批量内计算梯度，认为它们可以合理地代表整个数据集。然而，数十亿个示例使得定义整个数据集变得更加困难，除非可以显着增加小批量大小，这也是令人望而却步的。所提出的框架允许从更大的独立示例池中并行计算（Map）梯度，并将其聚合（Reduce）为大批量。

甚至可以进行数十亿个模型的全批量梯度计算。给定可扩展框架，本节接下来墨西哥 WhatsApp 号码数据描述上述示例模型的示例算法方面和训练并行性。专家众多的例子与使用结构相同的分类器模型对所有类别进行分类的全局分类器相比，使用 MoE 等一组局部分类器的一个关键优势是能够根据类别的独特特征灵活地进行训练。

因此，随着类型数量的增加以及这些课程涵盖各种主题，拥有更多的专家变得特别有用。然而，增加拥有大规模数据集的专家数量并非易事。关于DBoF框架，给定K个可能的标签，构建MoE为模型。

每个标签的二元分类器专家需要专家总数。对于具有数千个标签和中等中间表示大小（2,048）的大型数据集，这很快就会成为问题，导致 MoE 大约为训练变量。幸运的是，方程中的权重每位专家的电子选择缺点。

对于所有 K个标签可以相互独立地训练。因此，作为一个例子，K 个类别可以被划分为 M 个工作人员来训练与这些类别相对应的专家，从而大大减少了与可用工作人员数量成正比的训练时间，时间复杂度为例如，班级平均分配给工人的情况。自适应专家混合示例许多专家可以为课堂提供不同数量的正面例子。