Несколько вопросов и предложений
Здравствуйте! Спасибо за начинание и скрипты! Давно жду чего-то подобного.
Несколько вопросов:
- Пробовали ли обучать лору на разных промптах под разные таблицы глифов? Можно в худшем случае просто разные лоры родить под каждую таблицу, но думаю модель должна по разным промптам (возможно это потребует экспериментом) нормально разные знаки генерячить.
- Библиотеку fontnn и модель апскейлера шрифтов как понимаю не выкладывали?
Не думали попробовать дообучить векторные модели чтобы уйти от этапа растра? Например https://github.com/OmniSVG/OmniSVG (код тренировки уже доступен). Хотя возможна потеря выразительности из-за не такой большой обширности датасетов по сравнению с Flux2 9B, но можно взять ваши наработки, нагеренячить кучу отборных шрифтов в самых разных стилях и скормить это как датасет для OmniSVG.OmniSVG оказалась плохой моделью, но есть ещё https://github.com/joanrod/star-vector
Здравствуйте! Большое спасибо за поддержку и такой глубокий разбор. Очень рад, что тема откликается.
По вашим вопросам:
Про разные промпты: Вы абсолютно правы. В текущей версии V3 я именно это и реализовал: внутри одной LoRA зашиты две разные логики сеток (латиница и кириллица), которые переключаются через специфические промпты. Это позволило сохранить стабильность расположения знаков. В будущем планирую расширять этот список.
Про апскейлер (FontNN): На данном этапе я решил от него отказаться. В V2 и V3 я поднял нативное разрешение тренировки до 1280x1280, и вместе с новым алгоритмом оптического выравнивания результат стал достаточно чистым для векторизации без дополнительных промежуточных моделей. Но идея не заброшена окончательно, просто сейчас приоритет на точности самой генерации.
Про OmniSVG и вектор: Это отличная мысль! Прямая генерация в вектор - это "святой грааль" для таких проектов. Главное преимущество Flux сейчас — это колоссальный объем "знаний" о стилях, чего пока не хватает чисто векторным моделям. Но идея использовать мой текущий пайплайн для генерации датасета под OmniSVG - это очень перспективный путь для V4. Обязательно изучу этот репозиторий, спасибо за наводку!
Еще раз спасибо за фидбек, такие советы очень помогают развивать проект!
Я выше подправил (ответ мне почему-то не подгрузился, только после F5), OmniSVG пробовать не стоит модель плохо обучена (и похоже переобучена), на неё были большие надежды, но увы.
Помимо star-vector можно ещё посмотреть на такой подход https://github.com/Picsart-AI-Research/LIVE-Layerwise-Image-Vectorization
Ах да, спасибо за ответы.