互联在线app开发网站_西地那非是什么药_个人网站免费推广_新闻媒体发稿平台

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

Recraft V3：高质量文本到图像生成

在这里插入图片描述

Recraft V3 是 Recraft 公司推出的高质量文本到图像生成模型。该模型在 Hugging Face 的文本到图像模型排行榜上以 1172 的 ELO 评分荣获第一。Recraft V3 具有先进的设计控制功能，支持用户精确定位文本和元素，定制品牌风格和颜色。模型支持长文本生成，提供用户友好的界面和灵活的定价策略，通过网站、移动应用或 API 使用，为设计师和创意专业人士提供了强大的图像生成解决方案。

资源

项目官网：https://www.recraft.ai/blog/recraft-introduces-a-revolutionary-ai-model-that-thinks-in-design-language
在线体验地址：https://fal.ai/models/fal-ai/recraft-v3

GTA：评估通用工具智能体的基准测试

在这里插入图片描述

GTA 是上海交通大学和上海 AI 实验室共同推出的基准测试，评估大型语言模型（LLMs）在真实世界场景中调用工具的能力。GTA 包含 229 个真实设计的问题，覆盖感知、操作、逻辑和创造力等多个类别，要求模型推理合适的工具，规划操作步骤，解决现实世界中的复杂任务。

资源

项目官网：https://open-compass.github.io/GTA
GitHub 仓库：https://github.com/open-compass/GTA
HuggingFace 模型库：https://huggingface.co/datasets/Jize1/GTA
arXiv 技术论文：https://arxiv.org/pdf/2407.08713

Magentic-One：多AI智能体协同完成复杂任务系统

在这里插入图片描述

Magentic-One 是微软推出的通用多智能体系统，解决跨领域的复杂网络和文件任务。系统基于多智能体架构，由 Orchestrator 智能体领导，协调 WebSurfer、FileSurfer、Coder 和 ComputerTerminal 四个专业智能体执行任务。Magentic-One 支持模块化和灵活性，易于扩展和适应新任务。

资源

项目官网：https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
GitHub 仓库：https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one
技术论文：https://www.microsoft.com/en-us/research/publication/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/

AndroidLab：系统化评估 Android 智能代理的框架

在这里插入图片描述

AndroidLab 是清华大学和北京大学联合推出的系统化评估 Android 自主代理的框架，集成文本和图像模态操作环境，统一行动空间和可重现基准测试。AndroidLab 支持大型语言模型和多模态模型，包含 138 个任务，覆盖九个应用。基于 AndroidLab，开发 Android 指令数据集，提升开源模型的成功率。

资源

GitHub 仓库：https://github.com/THUDM/Android-Lab
arXiv 技术论文：https://arxiv.org/pdf/2410.24024

VQAScore：文本到视觉图像生成评估方法

在这里插入图片描述

VQAScore 是 CMU 和 Meta 联合推出的评估方法，基于视觉问答（VQA）模型衡量由文本提示生成的图像质量。VQAScore 用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率，评估图像与文本提示的对齐程度。VQAScore 核心优势在于无需额外人类标注，提供更精确的评估结果。

资源

项目官网：https://linzhiqiu.github.io/papers/vqascore/
GitHub 仓库：https://github.com/linzhiqiu/t2v_metrics
arXiv 技术论文：https://arxiv.org/pdf/2404.01291
在线体验 Demo：https://huggingface.co/spaces/zhiqiulin/VQAScore

OuteTTS：开源的文本到语音合成项目

在这里插入图片描述

OuteTTS 是开源的文本到语音（TTS）项目，基于纯语言建模的方法生成语音。OuteTTS 项目基于 LLaMa 架构，用 Oute3-350M-DEV 基础模型，拥有 3.5 亿参数。OuteTTS 具备音频标记化、CTC 强制对齐技术和结构化提示创建等创新音频处理方法，支持语音克隆功能，及用户创建自定义说话人的声音。

资源

GitHub 仓库：https://github.com/edwko/OuteTTS

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

互联在线app开发网站_西地那非是什么药_个人网站免费推广_新闻媒体发稿平台

Recraft V3：高质量文本到图像生成

资源

GTA：评估通用工具智能体的基准测试

资源

Magentic-One：多AI智能体协同完成复杂任务系统

资源

AndroidLab：系统化评估 Android 智能代理的框架

资源

VQAScore：文本到视觉图像生成评估方法

资源

OuteTTS：开源的文本到语音合成项目

资源

最新新闻

热搜词