With You - AI 角色对话与生成软件

软件概要

“With You” 是一款让用户以自然节奏与 AI 角色对话的桌面应用。我们重视“角色就在身边”的沉浸感，将语言处理、3D 模型、语音合成与 UI 紧密联动，而不仅仅是一个 AI 聊天工具。

在最新版中，应用能够根据用户需求即刻生成角色的个性、外观与声音，从单一角色运营进化为“塑造无数人格”的平台。

开发背景

为了实现“与 AI 度过时光”的体验，我们设计了一套兼顾响应速度、扩展性与个性表现的通用对话基座。

核心价值

在高速响应与深度表达之间取得平衡
支持双向互动的可打断式对话
角色的动态生成与持久化

主要功能

这是最新版 “With You” 所提供的体验与技术。

With You 角色生成界面 — 角色生成界面：通过自然语言输入，自动生成人格与外观设定。

语音实时对话

常时监听，即使 AI 正在说话也能插话，实现自然节奏的寒暄与回应。

LLM 联动与 JSON 控制

利用 OpenAI 的 Chat Completions API，输出严格遵循 JSON 架构，让对话数据与设定保持结构化。

VOICEVOX 流式合成

通过本地 VOICEVOX HTTP API 进行逐步合成，最大程度缩短开口延迟，带来高品质语音体验。

角色动态生成

把自然语言指示转换成涵盖口吻、设定、外观与声音的 JSON，并立即作为人格启动。

外观自定义

通过材质操作动态修改发色、瞳色与 VRM 模型，并自动调整协调的配色。

持久化与再现

生成结果会保存到 PlayerPrefs，重启后也能以同一人格继续对话。

架构设计

以 Unity 为核心，五大领域紧密协同运作。

3D 角色（VRM）

在运行时加载多种 VRM，联动眨眼、口型、表情与肢体动作，并通过音频增益分析实现口型同步。

语音识别

基于 Windows 自带的 DictationRecognizer，实现无需外部 API 的离线常时监听模式。

语言处理

以 JSON 接收 LLM 输出，严格控制对话方针与上下文，并按用途选择模型。

语音合成

利用 VOICEVOX 本地 API 逐步合成，通过 GPU 加速缩短响应时间，让对话节奏更自然。

状态与记录管理

使用 PlayerPrefs 保存设定与历史，随时调用已生成的角色并继续对话。

角色动态生成流程

用户输入的自然语言会被转换成包含人格、外观与声音的 JSON，并立即应用。通过架构校验排除异常值，提供稳定的生成体验。

必填字段：instruction / name / hair_color_index / eye_color_index / model_index / speaker_id
颜色修正逻辑确保发色与瞳色的协调
生成结果整合到 UI 与 PlayerPrefs，方便重复使用

01

输入自然语言需求

例如：“想要一个温柔又聪明的青梅竹马女孩。” 可以尽情发挥想象。

02

LLM 生成 JSON

依据 response_format=json_schema 定义，结构化输出人格设定。

03

应用到角色

自动加载模型、调整材质并设置 VOICEVOX 说话人，立即开始对话。

04

持久化与重启

保存生成设定，应用重启后也能以相同人格与记忆继续交流。

With You 生成结果预览 — 生成结果会立即反映到 UI 中，自动统一模型、配色与语音设定。

可打断的对话结构

摆脱僵化的回合制，常时监听架构允许用户在 AI 说话途中插话，插入反应的节奏接近人与人之间的闲聊。

响应优化

分析不同模型的响应特性，通过流式合成与 GPU 生成加速反馈，让对话更有活力。

With You 实时对话界面 — 实时对话界面无缝同步语音输入、LLM 应答与 VOICEVOX 发声。

向云端扩展

规划中的“个人 AI 云”将角色设定保存在云端，让用户在手机或浏览器中也能与同一人格对话。

实现“就算关闭应用 AI 依然存在”的连续人格体验，是我们追求的目标。

应用于数字标牌

我们设想在商业设施和公共场所中，面向场景定制的角色能以多语言提供信息，成为互动型的导览方式。

通过对话而非静态画面，角色可以根据情境给出恰当的引导。

继续拉近人与 AI 的距离

这个始于兴趣的项目跨越多种技术，一直在探索“人与 AI 的对话体验”。即使资源有限，我们也把想到的改进迅速付诸实现，持续前进。

为了跟上生成式 AI 的飞跃式发展，我们不断更新知识，追求更丰富的对话与表现。

与 AI 角色一起“度过时光”的桌面软件