?智源社区日报关注订阅?
Falcon LLM是一个基础性的大型语言模型(LLM),在一万亿个令牌上训练了400亿个参数。TII现已发布猎鹰LLM——40B型号。该模型仅使用GPT-3训练计算的75%、Chinchilla的40%和PaLM-62B的80%。
地址:https://huggingface.co/tiiuae
该大模型是 400 亿参数的因果解码器模型 Falcon-40B,它在 RefinedWeb 的 1000B token 上进行训练,并使用精选数据集增强。它在 Huggingface 的 OpenLLM 排行榜上排首位,其性能优于 LLaMA、MPT、RedPajama 和 StableLM 等。
虽然 Falcon-40B 模型本身很强大,但其遵循的开源协议却在开源圈引起了轩然大波。它在一个允许商业使用的许可证下可用,即如下 TII Falcon LLM License。
该许可证部分基于 Apache License Version 2.0,TII Falcon LLM License 对修改源代码和目标代码都有额外的要求,除非分发编译的模型。即该许可允许开放使用和修改,但同时又保留了很多自有权利。
地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
猎鹰LLM是如何开发的?
Falcon是使用自定义工具构建的,并利用独特的数据管道从Web数据中提取高质量内容,并用于训练自定义代码库,独立于NVIDIA、Microsoft或HuggingFace的作品。
特别关注大规模的数据质量。众所周知,LLM对其训练数据的质量非常敏感,因此在构建数据管道时非常谨慎,该管道将扩展到数万个CPU内核进行快速处理,并使用广泛的过滤和重复数据删除从网络中提取高质量内容。
Falcon的架构针对性能和效率进行了优化。将高质量数据与这些优化相结合,Falcon仅在75%的训练计算预算中明显优于GPT-3,并且在推理时需要五分之一的计算。
Falcon与DeepMind、Google和Anthropic的最先进的大语言模型表现相匹配。
如何训练
Falcon是一个在1万亿个令牌上训练的400亿个参数自动回归解码器模型。在两个月的时间里,它在AWS上的384个GPU上进行了训练。
从网络的公共抓取中收集了预训练数据,以构建Falcon的预训练数据集。使用CommonCrawl的转储,在进行大量过滤(删除机器生成的文本和成人内容)和重复数据删除后,组装了近5万亿个令牌的预训练数据集。
为了扩大猎鹰的能力,该数据集随后扩展了一些精选来源,如研究论文和社交媒体对话。
最后,Falcon的性能得到了EAI Harness、HELM和BigBench等开源基准的验证。
可以做什么
生成创意文本并解决复杂问题。
用于聊天机器人、客户服务运营、虚拟助理、语言翻译、内容生成和情感分析。
Falcon预见了广泛的用例,尽管我们对减少和自动化“重复性”工作的应用程序最兴奋。
Falcon将帮助阿联酋公司和初创企业提高效率,简化内部流程,并让员工有时间专注于重要的事情。
在个人层面上,嵌入Falcon的聊天机器人将能够帮助用户在日常生活中。
阿布扎比-阿拉伯联合酋长国:2023年5月31日——技术创新研究所(TII)的猎鹰40B,阿联酋领先的大型开源人工智能模型,现在没有商业和研究用途的版税,以应对全球对包容性人工智能的需求。
Falcon 40B在Hugging Face的大型语言模型(LLM)排行榜上排名第一,优于Meta的LLaMA和Standing AI的StableLM等竞争对手。根据允许的Apache 2.0软件许可证,Falcon 40B最终用户可以访问相关软件涵盖的任何专利。Apache 2.0确保了安全且强大的开源软件的安全性和可用性,并建立了有效的治理模型。
TII不受限制地访问Falcon 40B,这凸显了其对技术创新和知识共享的奉献,促进了协作生态系统,并加强了阿联酋作为全球人工智能领导者的地位。此外,它反映了阿联酋致力于突破界限,塑造人工智能在推动积极变革方面发挥关键作用的未来。
Falcon 40B的开源、免版税部署可以增强公共和私营部门实体的效率,例如更快的项目启动、更快的迭代、更灵活的软件开发流程、强大的社区驱动支持和更轻松的许可证管理。
TII旨在在全球开发人员、研究人员和企业之间培养一个蓬勃发展的协作、创新和知识共享生态系统。此举促进了人工智能的透明度、包容性和加速进步,为各行各业的应用释放了多样化的机会。
博士TII人工智能跨中心部门主任Ebtesam Almazrouei表示:“放弃猎鹰40B版税促进了包容性技术进步,促进了有凝聚力的社会。我们致力于利用技术来统一人类和面向未来的世界。”