技术演进的核心阶段
传统图像处理阶段(20世纪60-90年代)
-
基础技术:早期以滤波、边缘检测、图像增强等算法为主,通过数值计算改善图像质量,但依赖人工特征提取,难以应对复杂场景。
-
理论框架:Marry提出的视觉计算理论将市局也分为三个阶段:
事件 描述 早期视觉 提取表面物理特性(如边缘检测、立体匹配) 二维半简图 描述观察者为中心的可见表面特性 三维模型 构建与视角无关的三维物体结构

它解释是反映人脑视觉感知里面中间的这一层,比较早期的视觉感知,实际上大家可以理解为视觉系统所生成的中间结果,其实并没有什么X用(-_-b)。 它是一个对于视觉场景来说的一些中间结果。 这些结果必须得存在,但是又没有直接带来我们所谓的理解和识别,所以做视觉的人就形成了“Early 、Vision”这么一个中间的形态。 Early vision的内容主要包含图象分割、边缘求取,运动和深度的估计这些方面。
二维半简图 (2½D sketch) 包含景物表面的信息,可以把它看做某些内在特性的混合信息。 二维半简图清楚地表示物体表面方向的信息。 物体表面法线从 物体内部穿出来,使物体好像穿刺满了针一样。 有时,这种二维 半简图又称为指针图,或简称针图 (needle diagram)。 此外,二维 半简图还包含从观察者到图像各部分的距离。 下方图

三维模型是物体的多边形表示,通常用计算机或者其它视频设备进行显示。显示的物体可以是现实世界的实体,也可以是虚构的物体。任何物理自然界存在的东西都可以用三维模型表示。
机器学习赋能阶段(2000-2010年底)
1. 算法应用:支持向量机(SVM)、随机森林等传统机器学习方法被引入图像分类、目标检测任务,但依然需要手动设计特征。
2. 初步智能化:如2006年的The Painting Fool通过颜色提取进行绘画,虽然智能水平优先,但开启了自动化视觉处理的新思路。
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。
SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器 [2]。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一。
SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用。
随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造决策树的集合。
2006年,The Painting Fool 能够基于模拟物理绘画的过程,通过看数码照片,熟练地提取区域块的颜色,然后模拟自然介质比如油漆、粉彩和铅笔等进行创作。 2007年,机器视觉软件学会了识别人们的情绪,并根据情绪的变化来描绘肖像,因为这项改进,The Painting Fool 赢得了英国计算机协会的机器智能奖。 2011年,3D 建模能力开发成功,使 AI 艺术再次令人们震动。
深度学习革命阶段(2010年代至今)
-
技术突破:卷积神经网络(CNN)等模型实现端到端的特征学习,显著提升图像识别精度;生成对抗网络(GAN)推动了图像生成与分析的边界。
卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 [1-2]。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks, SIANN)”。
-
多模态融合:
OpenAI的CLIP模型通过40亿级文本-图像数据训练,实现跨模态理解,成为AI视觉与自然语言结合的里程碑。
DeepSeek通过低成本技术架构、开源生态、行业深度适配及绿色能源协同,构建了差异化的竞争优势。 -
三维视觉深化:如奥比中光的3D视觉感知技术,结合深度学习优化机器人导航与工业检测,成为产业升级的核心工具。
美国人工智能研究公司
OpenAI
,是一家开放人工智能研究和部署公司,其使命是确保通用人工智能造福全人类 。创立于2015年12月,总部位于美国旧金山。现由营利性公司OpenAI LP
及非营利性母公司OpenAI Inc
组成。
DeepSeek
,全称杭州深度求索人工智能基础技术研究有限公司 [40]。DeepSeek
是一家创新型科技公司 [3],成立于2023年7月17日 ,使用数据蒸馏技术 ,得到更为精炼、有用的数据 。由知名私募巨头幻方量化孕育而生 ,专注于开发先进的大语言模型(LLM)和相关技术 。经营范围包括技术服务、技术开发、软件开发等。

DaBai Max Pro
是Orbbec DaBai
@系列的大广角双目结构光深度相机,提供0.2m~2.5m的探测距离,深度图像分辨率最高可达640*320,1m处深度精度可达12mm,运行平均功耗低于2.5W,搭配高分辨率的RGB模组可适配客户各种场景下的识别需求,产品适用于机器人避障和识别应用。
关键技术突破
算法创新
GAN与创造性对抗网络(CAN):GAN生成逼真图像,CAN则尝试突破模仿局限,生成具有“艺术性”的独特作品。
实时性与效率提升:Stable Diffusion等模型将图像生成时间从小时级缩短至秒级,同时支持高分辨率输出。
硬件与感知技术
传感器革新:韦尔股份的CMOS图像传感器作为“机器之眼”,结合AI算法实现低功耗、高精度的环境感知,应用于自动驾驶与工业机器人。
3D视觉集成:通过多摄像头或激光雷达实现三维重建,推动医疗影像分析(如CT扫描)与智能交通的精准度。
应用领域的扩展
工业自动化
缺陷检测与定位:VisionPro等工具结合深度学习实现亚像素级精度,用于半导体元件检测与机器人引导。
医疗健康
影像分析:AI辅助诊断系统通过分割MRI图像提升病灶识别效率,减少人工误差。
智能交通与消费电子
自动驾驶:多传感器融合技术实时解析道路状况与驾驶员行为,优化决策算法。
人机交互:AR/VR设备结合3D视觉实现手势识别与虚拟场景重建。
未来趋势与挑战
技术融合
AI+边缘计算:通过轻量化模型降低算力需求,推动AI视觉在物联网终端的普及。
具身智能:结合机器人技术,实现视觉感知与物理操作的闭环,如人形机器人的环境交互。
理论与标准化
数据隐私:医疗与安防领域需平衡数据利用与隐私保护;
算法透明性:避免深度学习“黑箱”特性导致的决策不可解释性。
代表性企业与生态
韦尔股份:聚焦CMOS传感器与AI视觉芯片,赋能机器人及智能汽车。
奥比中光:以3D视觉技术为核心,构建“机器人与AI视觉中台”,与英伟达合作深化生态布局。
OpenAI
与Google
:通过DALL·E、CLIP等模型推动多模态视觉生成技术的前沿探索。
DeepSeek
(深度求索):2025 年 1 月 20 日发布 DeepSeek-R1 推理大模型,将训练成本降至 OpenAI 同类模型的 1/30,性能与 OpenAI 的 o1 不相上下,其 API 调用成本降低了 90%-95%。
关于上面详细链接:
AI 画拍出300万高价?一篇文章带你读懂 AI 艺术史_艺术家
https://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E6%A3%AE%E6%9E%97?fromModule=lemma_search-box
https://baike.baidu.com/item/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA/9683835