谷歌等祭出图像语义理解分割神器,PS再也不用专业设计师!
![]() |
作者:张鑫,三石
【新智元导读】密歇根大学和谷歌大脑的研究人员合作,提出了一种图像语义分层处理框架,可以实现像素级别的图像语义理解和操纵,在图像中任意添加、改变、移动对象,并与原图浑然一体,实现真正的“毫无PS痕迹”。
曾经,你以为下面普京×容嬷嬷那张图就称得上“毫无PS痕迹”了。
![]() |
你再看看这两张图:
![]() |
![]() |
看好了哦,这是原图:
![]() |
![]() |
答案揭晓:
![]() |
无论是色调、光线还是纹理,都与原图配合得更加自然,操作起来也十分简单方便。
这多亏了密歇根大学和谷歌大脑的研究人员,他们提出了一种新的图像语义处理分层框架,首先根据图像中给定对象的边界框,学习生成像素级语义标签地图(pixel-wise semantic label maps),然后根据这个地图再生成新的图像。
因此,用户可以实现对象级的操纵,无论是改变颜色、移动位置、去除某个物体,增加新的东西,或者把原来在最前面的人物往后移一层或两层,而且与原图像自然融为一体。
操作只需要一步即可:[page]分页标题[/page]
![]() |
定量和定性结果分析,该方法比当前流行的Context Encoder、Pix2PixHD等效果都要高出许多。这有望掀起计算机视觉和图像处理界的巨变,难怪有人看完后在Twitter留言:
“在我两年前开始学计算机视觉时,这种技术简直是无法想象的。”“简直是科幻变成了现实!”
还有人疾呼:PS里有个功能我想在就想要!
像素级分层语义处理框架,实现图片对象自然修改
想必大家看到这个神级PS技术,对其原理应该是十分好奇了吧!接下来,小编就带着读者领略这款神技的技术奥秘!
正如上述所言,这个PS技术框架的核心就是分层图像处理。
当给出新的边界框B时,算法首先通过以B为中心、尺寸为S×S的裁剪平方窗口,提取标签映射(semantic label map)MRS×S×C和图像IRS×S×3的局部观测值。 在M,I和B上,模型通过以下过程生成操纵图像:
给定边界框B和语义标签映射M,结构生成器通过
|
给定操纵的标签映射M和图像I,图像生成器通过
|
而在分层图像处理过程中,有两个核心的关键步骤:
结构生成器(Structure Generator)
结构生成器的目标是以像素级类标签MRS×S×C的形式推断由B = {b,c}指定的区域的潜在结构。
![]() |
给定一个masked layout M和一个binary mask B,分别用于对目标的类和位置进行编码。该模型通过来自双流解码器( two-stream decoder)的输出产生M(该双流解码器对应于box整个区域中对象的二进制掩码和语义标签映射)。
图像生成器(Image Generator)
给定一张图像I和从结构生成器中获得的可操纵layout M,图像生成器输出区域内由B定义的、内容的像素级预测。
![]() |
给定一张masked图像I和语义layout M,该模型使用单独的编码路径对对象的视觉样式和语义结构进行编码,并产生被操纵的图像。
超越当前最好标准,从此修图随心所欲
定量评估
Ablation Study。 为了分析所提方法的有效性,对该方法的几种变体进行了Ablation Study。 首先考虑图像生成器的三个基线:
仅限于图像上下文(SingleStream-Image);
仅限于语义布局(SingleStream-Layout);
对上述两个基线的结合。[page]分页标题[/page]
结果如下表所示:
![]() |
![]() |
语义对象处理
![]() |
从图中可以看到,当把车的边框从一边移动到另一边的时候,模型所产生的车辆外观发生了变化。有趣的是,汽车的形状、方向和外观也会根据周围区域的场景布局和阴影而改变。
![]() |
该结果表明,模型在考虑上下文的情况下生成了合适的对象结构和外观。除了生成与周围环境相匹配的对象外,还可以对框架轻松地进行扩展,允许用户直接控制对象样式。
扩展式操作
![]() |
结果表明,模型成功地合成了具有指定颜色的各种对象,同时保持图像的其他部分不变。
交互式和数据驱动的图像编辑
图像编辑是该模型的关键点之一。通过添加、删除和移动对象边界框来执行交互式图像处理。 结果如下图所示:
![]() |
表明该方法生成合理的语义布局和图像,可以平滑地增加原始图像的内容。除了交互式操作之外,还可以通过以数据驱动的方式对图像中的边界框进行采样来自动化操作过程。 结果如下图所示:
![]() |
室内场景数据集的实验结果
使用ADE20K数据集对卧室图像进行定性实验。 下图展示了了交互式图像处理结果。
![]() |
由于室内图像中的对象涉及更多样化的类别和外观,因此生成与场景中的其他组件对齐的适当对象形状和纹理比街道图像更具挑战性。
可以看出,该方法生成的对象与周围环境可以保持高度一致性。
本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41

- 15:27北京金海汇成投资有限公司谈资产配置
- 12:17寻找自然受益型经济10万亿美元的商机 ——第一财经第十四度携手达沃斯举办
- 12:43燃情“苏超”!苏州队VS扬州队精彩上演!雪中飞助力苏州队3:0夺得首胜!
- 17:23卷不赢的618,中国商家在东南亚集体“回血”
- 13:57“基于北斗与遥感的数字应用产业互联关键技术及应用”科技成果评价会在京成功
- 13:39三贯穿定基调,五纵横拓图,六点连线筑生态——燕京510以全域营销战略登顶
- 10:05由新者胜 至行者达 第三届中国企业碳中和表现榜正式发布
- 09:53相关专家领导赴四川嘉好变频供水设备科技有限公司考察调研
- 21:20甘露特钠胶囊多地断供?谁来续上患者的记忆
- 08:59站酷×北京邮政×微博强强联手!“玩具杂货铺”玩转儿童节艺术营销
- 14:13再破圈!央视端午晚会新松大负载机器人“执手”专业舞者柔美共舞,人机“无间
- 12:30盼星星,盼月亮,就盼九期一
- 09:26双线狂欢引爆510盛夏:狮王“世界风味”VS燕京9號“社区烟火”
- 14:35如何借力抖音7亿日活?京东(郑州)基地手把手教电商企业数字化转型
- 16:35150+项专利死磕滤芯,云米引领家庭饮水进入矿泉时代
- 10:35必有人,重写爱与浪漫 宝珀Ladybird贝蒂女士系列
- 10:34宝珀Ladybird贝蒂女士系列钻石舞会炫彩腕表 焕新演绎尊贵皇家紫色
- 10:36HTX携手HTX DAO共庆BTC披萨节,开启Web3全球化共识新篇章
- 10:08化学工业出版社一行到访外研在线 调研出版数字化转型路径
- 21:31BTC披萨节遇上TRUMP晚宴,HTX送出百万USDT狂欢福利
- 16:09HTX“火星计划特别版”新晋候选人出炉,用户太空之旅进入冲刺阶段
- 13:502025第四届石油石化装备产业科技大会暨科技创新成果展览会成功召开
- 19:352025第四届石油石化装备产业科技大会暨科技创新成果展览会成功召开
- 13:49恩捷李晓明:加速领跑全球锂电隔膜赛道
- 15:17HTX披萨狂欢节用户红包活动开启:联动七大加密项目限时送200,000
- 09:352025燕京啤酒510 BigDay启幕,解码全域营销新范式
- 09:24恩捷股份:恒捷远 PE-MBR 膜组器如何实现成本 “大瘦身”
- 20:03“火星计划特别版”活动启动:孙宇晨出资600万美元,助HTX普通用户圆梦
- 16:51USD1上线引爆市场,HTX下一步瞄准WLFI?
- 15:44燕京啤酒510品牌日蓄势待发:以全产品线矩阵构建全域营销生态


