深度求索DeepSeek大模型：国内已应用，性价比高且开源

编辑：生活网来源：生活网 解放日报上海交通大学达观数据 DeepSeek 人工大脑

2025-01-30 04:06:26

_上海模型教室_上海模型交流赛

深度求索公司的大模型最近引起了广泛关注，已不再局限于专业范围。但事实上，在我国学术界和产业界，这些大模型早已开始使用。这其中引发了许多值得思考的问题，比如为何它现在才被广泛认知，以及在我国的应用效果究竟如何。

深度求索大模型在高校中的应用

_上海模型交流赛_上海模型教室

赵海教授是上海交通大学计算机系的成员，去年他舍弃了GPT-4。他的决定是在上海交大做出的。他选择了-V3来制作合成数据，并用这些数据来构建特定领域的大型模型。这一变动表明，深度学习的大规模模型在高校科研中也颇受欢迎且实用。它为高校研究提供了支持，满足了特定开发需求。这样的调整可能与资源、成本、效率等因素有关，赵海教授的这一选择有力地说明了深度学习大模型的重要性。

去年五月，达观数据公司引入了V2大模型。该模型在企业内部得到了应用，尤其是研发团队，他们可能是最频繁的使用者。他们的目标是开发出智能办公助手。实际效果显著，表现优异。从这个现象可以看出生活网资讯，在办公场合运用深度学习的大模型，确实能够产生实际效果，提高办公效率和智能化程度。

大模型的技术创新

_上海模型交流赛_上海模型教室

大模型在深入探究方面有明显的长处。比如，V3版本在GPU资源的使用上表现得非常出色。对于资源规模相对较小的GPU集群来说，它这种低资源消耗、高效能的特点特别合适，有利于更广泛的推广。企业或科研机构在本地应用时，无需投入大量的设备资金。

在深入研究中，大模型运用了多种创新技术。例如，MLA架构成功减小了键值缓存，这在处理海量数据时，能大幅减少资源使用。另外，对偶流水线技术也得到了应用，它能让GPU的算力和通信算力在训练时同步运行，有效缓解了计算压力，几乎实现了持续运算。这在工业和学术领域的模型训练中，能显著减少所需时间。

大模型的发展阶段

_上海模型教室_上海模型交流赛

大模型的发展历程分为三个阶段。起初，一个引人注目的模型横空出世，让人眼前一亮。不过，遗憾的是，它并未公开源代码，导致开发者们对其开发细节知之甚少。那时，大家只能看到它的成果，却无法深入了解其内部运作原理。

DeepSeek风靡美国后，投资者抛售人工智能主题相关股票，纳斯达克综合指数1月27日显著下跌。新华社发

第二阶段，许多团队纷纷重启了开发工作。Llama、Qwen等知名的开源大模型相继出现。尽管这些模型的功能持续提升，但与之前发布的大模型相比，仍有不小的差距。尽管如此，大家都在奋力追赶。即便有差距，开源的潮流也给整个领域带来了新的生机。

深度求索大模型的影响

_上海模型教室_上海模型交流赛

深度求索公司对大模型的外观进行了改动。以去年9月发布的o1推理大模型为例，它改变了“文科生”的印象，凸显了它在逻辑和数学领域的优势。无论是科研机构还是追求精确计算的企业，这种新型大模型都有潜力引发变革，为完成复杂任务奠定坚实基础。

R1的性能和o1差不多。这款产品对我国科学智能的发展有很大帮助，在人工智能的研究和应用方面扮演了关键角色。也许，借助它，我们能够培养出更多的智能化成果。

人工智能的未来展望

上海模型教室_上海模型交流赛_

人工智能追求的最终成果是制造出类似人脑的装置。这种装置能够解决众多领域的复杂问题。赵海预测，在接下来的20年里，我们可能成功研发出这项技术。目前，全球各地的科研机构都在积极探讨这项技术。一旦这项技术被发明出来，它将大大改变科研的方法，甚至可能对全球科研的布局带来重大影响。

新知识的获取和难题的解决效率将大幅增强。这种提升不仅表现在自然科学探索的前沿，也涉及社会科学的深入探究。这种全方位的进步，让人类更快地攻破以往难以攻克的难关。

关于深度探索型大模型的未来发展，大家有何期待？欢迎在评论区分享你们的观点。同时，不妨给这篇文章点个赞，并把它转发出去。

本网站转载其他媒体之作品，意在为公众提供免费服务。如权利所有人拒绝在本网站发布其作品，可与本网站联系，本网站将视情况予以撤除。

全部评论

生活网推荐

生活网资讯