新澳鹏:全链条AI服务商
自从LLM大模型在全球爆红以来,就一度有大模型将统治AI界的论调。但经过2023年上半年的”百模大战”,大家逐渐认识到深度学习与LLM大模型对于AI应用来说,都同等重要。所谓LLM大模型,即模型参数达到百亿、千亿以上,具有”智能涌现”的通用基础AI大模型,但由于参数和占用计算资源庞大等特点,并不适用于企业和行业场景,深度学习和机器学习则在实际应用中有着不可取代的价值。
澳鹏全球高级副总裁、大中华区及北亚区总经理田小鹏博士表示,对于未来的AI市场和智能经济,澳鹏的策略是深度学习与大模型,两手抓、两手硬。
首先,深度学习、机器学习等对于当下的数字化转型来说正在发挥实效,特别是适用于实时计算和边缘计算等企业级场景,在智能汽车、智能物联网、智能制造等领域发挥着重要的作用,澳鹏仍将坚持面向深度学习和机器学习领域的AI数据服务,同时与顶尖AI企业的深度学习和机器学习平台形成端到端解决方案,满足企业当下的AI工程化落地需求。
2023年6月底,澳鹏Appen企业级高精度人工智能辅助数据标注平台——MatrixGo正式上线SaaS版本。MatrixGo自发布以来,已经经历了数千个AI数据标注项目的实战打磨,累积了来自各行各业、各种类型项目丰富的实战经验。MatrixGo SaaS版本的上线,让企业客户能够更快速地部署MatrixGo,最快一天开通使用、投入生产,同时可以获得专业的使用培训和客服支持,SaaS版本还将持续为客户提供即时更新的MatrixGo最新版本,让企业客户使用最新和最先进的数据服务,打造高质量深度学习和机器学习应用。
此外,澳鹏也将LLM技术用于改善数据标注工具和平台,不断强化澳鹏在深度学习和机器学习数据服务方面的竞争优势。新推出的文档智能产品可以从非结构化文档中自动提取信息,例如从扫描文档或文档照片中提取内容,准确率达到99%,这极大拓展了企业AI数据源。NLP自动标注则采用小样本或零样本学习和LLM模型,对数据进行自动化标注,从而加速数据供应。澳鹏在2022年还投资了全球顶尖的视觉AI合成数据供应商MindTech,可以提供一系列高质量多维度多角度的合成逼真图片,应对小样本甚至零样本问题。
其次,澳鹏将对LLM大模型进行战略投入,推出以澳鹏智能LLM大模型开发平台为代表的LLM产品线。澳鹏LLM产品线包括基础数据、基线模型、评估与微调以及上层生成式AI应用等四大部分。
LLM基础数据提供成品数据集、数据爬取、数据清洗和开源数据等,为LLM基础大模型训练以及微调大模型提供高质量数据集。
基线模型则提供自研模型和第三方开源或商用模型,以及支持客户自有模型,澳鹏自研模型可根据使用场景定制化、模型私有化体积可以根据运行资源要求进行限制,支持私有化部署、云平台API调用等,第三方合作模型则包括Reka、Cohere等国内外优秀的商用和开源大模型。
评估和微调包括专家语料、RLHF、A/B测试和模型评价等LLM大模型训练服务。澳鹏在全球有上百万的众包数据收集和标注员,支持235+种语言和方言,也有专门面向金融、零售、工业和医疗等行业的专家众包资源。过去,这些资源服务于深度学习和机器学习的数据标注;未来,面向LLM大模型的训练需求,这些资源还能够提供提示词-输出语料包、专业领域语料包,以及将人工嵌入到LLM大模型训练的人工反馈增强环节,实现RLHF算法,提升模型的专业领域能力。
模型评估包括A/B测试、模型评价、红蓝对抗和基准测试等方法,主要是由澳鹏的LLM专家和众包资源一起,评估不同大模型以及同一大模型不同版本的输出结果,对模型输出进行评价以避免歧视和涉黄等风险,在多轮对话对抗中评估模型的能力,以及使用行业标准语料包对大模型进行基准测试。
第三,在更远期,澳鹏将把深度学习和机器学习与LLM大模型结合起来,端到端为企业客户开发生成式AI应用,从数据到模型再到应用开发,提供全链条的咨询与应用开发服务,进而成为核心AI供应商。
相比于其它LLM和生成式AI赛道的参与者,澳鹏有非常扎实的数据”底盘”和全链条的数据工具链、平台和人力资源,而数据能力才是LLM和生成式AI的王道。此外,澳鹏还与全球AI企业、AI生态有着长达27年的合作关系历史,也参与了大量企业和行业AI落地的项目实践,有着丰富的企业级项目实施经验。这些都为澳鹏在LLM和生成式AI时代的自我颠覆,打下了坚实的基础。
展望未来:LLM大模型和生成式AI是全球智能进化的”奇点”,而一个全新姿态的澳鹏正在LLM大模型和生成式AI中崛起。从顶级AI数据服务商,到快速切入行业LLM大模型和生成式AI赛道,再向生成式AI应用以及全链条AI咨询开发发展,澳鹏正基于过去27年的积累,在全球智能进化”奇点”时刻,把握机会、迅速蝶变,并与全球AI生态一起,打开生成式AI的大未来