❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
Recraft V3:高质量文本到图像生成
Recraft V3 是 Recraft 公司推出的高质量文本到图像生成模型。该模型在 Hugging Face 的文本到图像模型排行榜上以 1172 的 ELO 评分荣获第一。Recraft V3 具有先进的设计控制功能,支持用户精确定位文本和元素,定制品牌风格和颜色。模型支持长文本生成,提供用户友好的界面和灵活的定价策略,通过网站、移动应用或 API 使用,为设计师和创意专业人士提供了强大的图像生成解决方案。
资源
- 项目官网:https://www.recraft.ai/blog/recraft-introduces-a-revolutionary-ai-model-that-thinks-in-design-language
- 在线体验地址:https://fal.ai/models/fal-ai/recraft-v3
GTA:评估通用工具智能体的基准测试
GTA 是上海交通大学和上海 AI 实验室共同推出的基准测试,评估大型语言模型(LLMs)在真实世界场景中调用工具的能力。GTA 包含 229 个真实设计的问题,覆盖感知、操作、逻辑和创造力等多个类别,要求模型推理合适的工具,规划操作步骤,解决现实世界中的复杂任务。
资源
- 项目官网:https://open-compass.github.io/GTA
- GitHub 仓库:https://github.com/open-compass/GTA
- HuggingFace 模型库:https://huggingface.co/datasets/Jize1/GTA
- arXiv 技术论文:https://arxiv.org/pdf/2407.08713
Magentic-One:多AI智能体协同完成复杂任务系统
Magentic-One 是微软推出的通用多智能体系统,解决跨领域的复杂网络和文件任务。系统基于多智能体架构,由 Orchestrator 智能体领导,协调 WebSurfer、FileSurfer、Coder 和 ComputerTerminal 四个专业智能体执行任务。Magentic-One 支持模块化和灵活性,易于扩展和适应新任务。
资源
- 项目官网:https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
- GitHub 仓库:https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one
- 技术论文:https://www.microsoft.com/en-us/research/publication/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
AndroidLab:系统化评估 Android 智能代理的框架
AndroidLab 是清华大学和北京大学联合推出的系统化评估 Android 自主代理的框架,集成文本和图像模态操作环境,统一行动空间和可重现基准测试。AndroidLab 支持大型语言模型和多模态模型,包含 138 个任务,覆盖九个应用。基于 AndroidLab,开发 Android 指令数据集,提升开源模型的成功率。
资源
- GitHub 仓库:https://github.com/THUDM/Android-Lab
- arXiv 技术论文:https://arxiv.org/pdf/2410.24024
VQAScore:文本到视觉图像生成评估方法
VQAScore 是 CMU 和 Meta 联合推出的评估方法,基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VQAScore 用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率,评估图像与文本提示的对齐程度。VQAScore 核心优势在于无需额外人类标注,提供更精确的评估结果。
资源
- 项目官网:https://linzhiqiu.github.io/papers/vqascore/
- GitHub 仓库:https://github.com/linzhiqiu/t2v_metrics
- arXiv 技术论文:https://arxiv.org/pdf/2404.01291
- 在线体验 Demo:https://huggingface.co/spaces/zhiqiulin/VQAScore
OuteTTS:开源的文本到语音合成项目
OuteTTS 是开源的文本到语音(TTS)项目,基于纯语言建模的方法生成语音。OuteTTS 项目基于 LLaMa 架构,用 Oute3-350M-DEV 基础模型,拥有 3.5 亿参数。OuteTTS 具备音频标记化、CTC 强制对齐技术和结构化提示创建等创新音频处理方法,支持语音克隆功能,及用户创建自定义说话人的声音。
资源
- GitHub 仓库:https://github.com/edwko/OuteTTS
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦