日前,腾讯混元文生图大模型(以下简称为混元DiT)迎来三大更新,包括推出并开源小显存版本、推出Kohya训练界面,以及升级至1.2版本、在图片质感与构图方面均有所提升,旨在进一步降低使用门槛的同时提升图片质量。
其中混元DiT小显存版本最低仅需6G显存即可运行,对使用个人电脑本地部署的开发者更友好。经过与Hugging Face合作,目前该版本与LoRA、ControlNet等插件均已适配至Diffusers库,开发者无需下载原始代码,仅用简单的三行代码即可调用,大幅简化了使用成本。
同时混元DiT还宣布接入Kohya,开发者可以低门槛地训练个性化LoRA模型。据了解,Kohya是一个开源、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。用户可通过图形化界面完成模型的全参精调及LoRA训练,无需涉及到代码层面的细节,并且训练好的模型符合Kohya生态架构,可以低成本与WebUI等推理界面结合,实现一整套“训练-生图”工作流。
此外值得一提的是,日前腾讯方面还宣布正式开源混元文生图打标模型混元Captioner。据了解,文生图开发者往往需要对原始图片进行清晰、全面的标注,制作高质量的数据集,才能训练出来一个语义理解准确、绘画技艺高超的文生图大模型。而借助打标模型,开发者可以快速生成高质量数据集。
此外,混元Captioner支持中英文双语,并针对文生图场景进行专门优化,包括构建了结构化的图片描述体系;在模型层面,通过注入人工标注、模型输出、公开数据等多种来源提升Caption描述的完整性;注入知名文学作品形象、地标、食物、动物、中国元素与知识等大量背景知识,让模型输出的描述更为准确、完整等,可帮助开发者快速制作高质量的文生图数据集。
据悉,除将原始图片集导入混元Captioner生成高质量标注外,开发者也可以导入图片与原始描述,利用混元Captioner过滤其中的无关信息,并完善和优化图片描述,以提高数据质量。
对此腾讯方面表示,“相比起业界的开源打标模型,混元Captioner模型能更好的理解与表达中文语义,输出的图片描述更为结构化、完整和准确,并能精准识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识”。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
本文转载自三易生活网,本文观点不代表特区网立场。