释放双眼，带上耳机，听听看~！

本文探讨了基于ChatGPT进行商业化创新所需的架构和条件，包括LLM层、微调层和应用层。同时分析了不同LLM模型的适用场景和训练方式。

前言

2023年ChatGPT进入大众视野后，无数自媒体宣称使用ChatGPT如何让自己在x天内赚到钱。但截止目前，国内还未有基于ChatGPT之上成功构建的商业应用。这意味着它现在仅是提升创业者生产效率的工具，离真正的商用还有一段距离，这段距离需要通过二次开发进行弥补。如果企业想基于ChatGPT做商业化创新需要具备哪些条件，是本文探讨的核心。

整体架构

ChatGPT商业化创新的架构与条件

LLM层：LLM（Large Launguage Model大型语言模型），除了我们熟知的ChatGPT，还有一系列LLM产品。他们的区别主要有三个方面，适用场景，使用成本，接入方式。一般来说中小型公司不具备在这一层开发的实力，我们需要做的事情是做好对比选择。
微调层：该层的目标是让LLM在垂直领域表现得更加符合需求。程序员需要通过对模型参数的调整、提示词的优化、思维链的组装等手段来实现这一目标。如果设计得当，甚至可以让LLM具备自我思考和使用工具的能力。可以说，这一层是程序员发力的重点，需要不断探索和创新。
应用层：最终让LLM发挥作用的是与传统行业进行结合，从而诞生新的玩法。例如，可以将虚拟人用于助教、直播等领域，以提高效率和用户体验。这一层需要有创新思维和市场洞察力，才能将LLM的潜力发挥到极致。

LLM层

大型语言模型(LLM)是一个近年来备受瞩目的研究领域，它是由一个拥有数十亿或更多参数的神经网络组成的语言模型。它利用自监督学习或半监督学习的方式，对大量未标记的文本进行训练。这种训练方式使得LLM可以预测下一个字、词或符号，或者生成一段自然流畅的文本，甚至可以模拟人类的对话交流。
我们常说的ChatGPT指的是GPT-3/GPT-3.5，它和其他LLM产品主要在适用场景，使用成本，接入方式有所区别。实际应用时需要根据自己的需求，在这些方面进行权衡和选择。

适用场景：

不同的LLM模型使用的预训练数据，训练方式和参数数量不一样，这影响了他们在不同任务上的表现。

训练模型和方式

在LLM的预训练中，有三种常见的方式：autoregression（自回归）、autoencoding（自编码）和seq2seq（序列到序列）。它们之间的区别如下：

Autoregression（自回归）：在这种方式下，模型会根据前面的文本内容预测下一个单词或字符。假设我们有一个句子“我喜欢吃冰淇淋”，如果使用autoregression方式，模型会先根据“我喜欢吃”这个上下文来预测下一个单词，也就是“冰淇淋”。然后，它会将“我喜欢吃冰淇淋”作为新的上下文，再预测下一个单词，以此类推，直到生成整个句子。这种方式的优点是生成的文本自然流畅，但是它需要在生成每个单词时都需要重新计算，速度较慢。
Autoencoding（自编码）：这种方式下，模型会尝试将输入的文本压缩成一个向量，然后再根据这个向量生成文本。例如我们可以将一个句子 “I am happy today” 作为输入文本。编码器将这个句子压缩成一个向量，例如 [0.2, 0.3, -0.1, 0.5]。然后，解码器将这个向量解压缩成一个新的句子 “I feel good today”。这个新的句子与原始句子的意思相似但略有不同。解码器的训练目标就是最小化生成文本与原始文本之间的差异。这种方式的优点是速度较快，但是生成的文本可能不够流畅。
Seq2seq（序列到序列）：一个例子是使用seq2seq训练机器翻译模型。在这种情况下，输入是一个语言的句子，输出是另一种语言的翻译。模型会根据输入的前一部分文本预测后一部分文本。这种方式的优点是能够很好地处理长文本，但是需要更多的训练数据。

参数数量

通常来说，参数越大代表着模型越复杂。这意味着模型可以学习更多的语言规律和特征，从而提高其预测的准确性（如果训练数据设计得好也许不需要大参数也可以表现得比其他LLM好）。同时模型的训练和推理时间也越长，需要更多的计算资源和时间。一味追求大参数也效果也不一定好，它会导致过拟合的问题，使得模型在未见过的数据上表现不佳。

适用场景分析

如果你只是想做简单的短文本快速分类，使用AE训练出来的模型，推理速度快，参数也没有必要要求太多。
如果你想做对话交流/总结，那么用AR训练出来的模型输出结果会更加流畅，参数可以要大一点。
如果你是想做文本翻译，比如中文转英文，或者编程语言a变编程语言b，用seq2seq训练的模型会比较好。

接入方式

目前LLM模型接入方式有本地部署和调用api两种方式。具体选择哪种方式看数据的重要程度，稳定性诉求和计划投入的计算资源。

1.本地部署

优点：可以在本地计算机上运行，不需要依赖外部网络和服务，可以保护数据的隐私和安全。
缺点：需要更多的计算资源和时间，需要自己进行模型的训练和优化，难度较大。
成本：参考服务器部署成本和GPU成本

2.调用api

优点：可以快速使用现成的模型和服务，不需要自己进行模型的训练和优化，调用简单方便。
缺点：需要依赖外部网络和服务，可能会泄露数据的隐私和安全，而且速度和性能可能受到网络延迟和服务质量的影响。
成本：一般会有调用次数和频率的限制，目前GPT-3是0.0002美元/1000 token，可以大致推算一下应用的成本。

微调层

敬请期待

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

ChatGPT商业化创新的架构与条件

前言

整体架构

LLM层

适用场景：

训练模型和方式

参数数量

适用场景分析

接入方式

1.本地部署

2.调用api

微调层

MindSpore算子使用经验总结及示例代码

基于神经网络的扩散蒙特卡罗方法在分子基态能量计算中的应用

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

前言

整体架构

LLM层

适用场景：

训练模型和方式

参数数量

适用场景分析

接入方式

1.本地部署

2.调用api

微调层

MindSpore算子使用经验总结及示例代码

基于神经网络的扩散蒙特卡罗方法在分子基态能量计算中的应用

智谱AI推出全自研第三代基座大模型ChatGLM3

GPT4 vs Claude2: 详细对比

2025年人类数据枯竭？AI全景报告详解未来技术发展趋势

AI语言模型以及提示工程的基本概念和挑战