近日,大数据产业领域头部媒体数据猿携手上海大数据联盟联合发布了备受瞩目的《2024中国AI大模型产业图谱2.0版》。以大数据与AI为代表的智能技术为主要视角,聚焦全产业链,为业内提供更为专业直观的行业指导。
景联文科技凭借高质量数据集,入选通用数据集核心服务板块。
景联文科技是专业大模型数据服务商,通过组建多层次的标注团队——包括粗标、精标及专业级标注人员,有效满足各种特定任务和专业领域对于数据的需求。
构建高质量大模型数据集
- 世界知识类期刊及高价值社区文本数据数千万篇:高质量外文文献期刊 、英文高质量电子书
- 教育题库数亿道:K12教育题库、大学题库,带解析、英文题库、专业知识类期刊、专利、代码、中文数字专利、程序代码(代码注释)
- 多轮对话数千万:文本多轮对话、中英文剧本(电影、电视剧、剧本杀)
- 音频数据数十万小时:普通话
- 图片生成及隐式/显示推理多模态数据数百万:图文复杂描述、图文推理问答对
- 生物数据数千万:核酸库、蛋白库、蛋白结构库、通路库、生信工具
- 药学数据数亿:药物研发数据库、全球上市数据库、一致性评价数据库、生产检验数据库、合理用药 、多维文献、原料药数据库
- 化学数据数亿:化合物数据库、反应信息数据库、物化性质数据库、谱图数据库、晶体信息数据库、安全信息数据库、商品信息数据库
- 材料数据数十万:金属材料数据、纳米材料数据、相图数据、材料性能数据、材料腐蚀数据、表面处理数据、焊接材料数据
- 专利数据数亿:全球专利基础著录数据、全球专利原文数据、全球专利附图数据、全球专利法律状态数据、全球专利法律状态数据、全球专利引文数据、全球专利分类索引数据、全球专利重点申请人工商关联数据、全球生化医药专利深加工数据、全球专利全文数据
- 医疗器械数据数千万:国内政策法规数据、行业标准数据、中国医疗器械审评数据、中国医械临床试验数据、全球医械临床试验数据、医用耗材中标数据、医用耗材带量采购数据、医用设备招投标数据
景联文科技还拥有强大数据处理引擎以及巨量的行业优质基础语料,快速安全处理企业私有数据并提供模型训练。
自研集数据处理、项目管理和数据安全管控等各环节于一体,并且能对图像、语音、文本、视频、3D点云各类型数据做到一站式处理的数据采集标注平台。
- 搭载SAM相关算法以提升标注效率,研发自动化辅助标注功能。
- 图片-AI智能识别:自动化或半自动化地精准标注图片中的目标对象、场景特征等。支持图像自动识别、自动拉框、自动贴边等。
- 视频-AI内容理解:具备强大的视频处理能力,能够识别视频中的关键信息,如物体、场景、行为等,并自动为其添加描述性标签。
- 点云-车辆3D框-AI预识别:数据标注平台的点云智能识别能够高效、精准处理和分析三维点云数据,具备实时处理能力和高鲁棒性。
- 文本-AI智能识别:自动化或半自动化地理解和标注文本数据中的关键信息、情感倾向、实体关系等,大幅提高标注效率与准确性,为文本分析、情感分析、信息抽取等任务提供强有力的支持。
- 语音-AI智能识别:对语音数据进行高效、精准的自动化处理,自动识别语音内容中的关键信息、情感倾向、说话者特征等,并转化为可训练的标注数据,为智能语音助手、语音识别、语音合成等应用提供强有力的支持。
- 优秀的显存分配机制,支持处理更大更复杂的图像,支持多种分割结果输出。
在数据安全与合规方面,景联文科技已通过ISO9001质量、ISO27001信息安全、ISO27701国际隐私安全管理认证,积极参与8项国家数据交换格式和数据安全标准制定,牢固构筑数据保护的基石。