
对图像 / 视频中的物体进行定位与类别判断(人、车、非机动车、动物、物品等)。 典型算法 / 模型:YOLO、Faster R-CNN、SSD、RetinaNet、EfficientDet 等。 核心能力: 多类别、多尺度、多目标同时检测。 支持小目标、遮挡目标、密集目标检测。 可用于安防、交通、零售、工业、机器人感知。

在连续视频帧中对同一目标进行持续定位与 ID 关联。 典型方法:DeepSORT、ByteTrack、StrongSORT、FairMOT 等。 核心能力:跨帧 ID 保持,支持遮挡后重识别。 适用于客流统计、车流统计、行为分析、安防布控、机器人跟随。

语义分割:对图像中每个像素进行类别标注(道路、建筑、天空、植被、人体等)。 典型模型:U-Net、DeepLab、SegFormer 等。 应用:自动驾驶感知、医疗影像分割、遥感图像分析、工业缺陷区域定位。 实例分割:不仅分类,还区分同一类别下的不同个体(如多个人、多辆车)。 典型模型:Mask R-CNN、SOLO、YOLACT 等。 应用:机器人抓取、工业分拣、安防统计、零售商品识别。 全景分割:语义 + 实例融合,对 “物体” 做实例、对 “背景区域” 做语义。 应用:自动驾驶、城市感知、高精度场景理解。

人体姿态估计:检测人体关键点(头、肩、肘、腕、髋、膝、踝等),输出骨架结构。 典型模型:OpenPose、HRNet、YOLO-Pose 等。 应用:行为分析、跌倒检测、动作识别、健身 / 体育动作纠正、人机交互。 手部 / 肢体关键点:手部 21 点、手指姿态、手势识别。 应用:VR/AR 交互、手语识别、机器人灵巧操作、隔空操控。