上证报中国证券网讯(记者孙小程)4月27日,阶跃星辰安稳发布并开源图像剪辑大模子Step1X-Edit。该模子总参数目为19B (7B MLLM + 12B DiT),具备语义精确领路、身份一致性保合手、高精度区域级规模三项关键能力;补助11类高频图像剪辑任务类型,如笔墨替换、格调迁徙、材质变换、东谈主物修图等。据先容,Step1X-Edit不单能“改图”,更能“听得懂、改得准、保得住”。 在时间层面,Step1X-Edit领受MLLM(Multimodal LLM)+ Diffusion的解耦式架构,别离负责当然讲话调处与高保真图像生成,万生实盘比拟现存图像剪辑模子,该架构在提醒泛化能力与图像可控性上更具上风。 MLLM模块负责料理应然讲话提醒与图像现实,具备多模态语义调处能力,可将复杂剪辑需求领路为latent规模信号;Diffusion模块四肢图像生成器(Image Decoder),凭证MLLM生成的latent信号完成图像的重构或局部修改,确保图像细节保真与格调兼并。这一结构冲破了传统pipeline模子中“调处”和“生成”道不同的问题,使模子在践诺复杂剪辑提醒时具备更高的准确性与规模力。 |