从单模态到多模态 - 文真AI博客

文真AI 联合创始人兼首席科学家在今日的技术分享会上表示，文真红笔（Wenzhen RedPen）的底层模型已成功由单语言模型进化为“图文一体化”多模态大模型。

什么是多模态理解？

简单的说，AI 不再仅仅是看到文字，它现在能“读懂”图片。如果您上传一张穿搭照片，文真红笔会自动识别颜色、材质、风格以及场景背景，并给出最契合该图片的文案建议。这种“所见即所写”的技术突破，将彻底改变小红书创作者的工作流。

小红书是一个视觉优先的社区。往往一张好图配上一段平庸的文字就可惜了。多模态模型的升级，意味着 AI 可以从专业摄影师和资深编辑的角度，去评价图像并提供互补的内容建议，而非简单的图像描述。

“我们正在让 AI 拥有审美。”

此次升级后，文真红笔内置的“视觉审美打分”功能将上线，帮助博主在发布前先行测试图片在小红书社区的潜在受欢迎程度。文真AI 始终致力于用最前沿的技术，服务于最纯粹的创作心。