开发背景
为了实现“与 AI 度过时光”的体验,我们设计了一套兼顾响应速度、扩展性与个性表现的通用对话基座。
整合语音识别、LLM、3DCG 与语音合成,带来仿佛角色就在面前的对话体验。
“With You” 是一款让用户以自然节奏与 AI 角色对话的桌面应用。我们重视“角色就在身边”的沉浸感,将语言处理、3D 模型、语音合成与 UI 紧密联动,而不仅仅是一个 AI 聊天工具。
在最新版中,应用能够根据用户需求即刻生成角色的个性、外观与声音,从单一角色运营进化为“塑造无数人格”的平台。
为了实现“与 AI 度过时光”的体验,我们设计了一套兼顾响应速度、扩展性与个性表现的通用对话基座。
这是最新版 “With You” 所提供的体验与技术。
常时监听,即使 AI 正在说话也能插话,实现自然节奏的寒暄与回应。
利用 OpenAI 的 Chat Completions API,输出严格遵循 JSON 架构,让对话数据与设定保持结构化。
通过本地 VOICEVOX HTTP API 进行逐步合成,最大程度缩短开口延迟,带来高品质语音体验。
把自然语言指示转换成涵盖口吻、设定、外观与声音的 JSON,并立即作为人格启动。
通过材质操作动态修改发色、瞳色与 VRM 模型,并自动调整协调的配色。
生成结果会保存到 PlayerPrefs,重启后也能以同一人格继续对话。
以 Unity 为核心,五大领域紧密协同运作。
在运行时加载多种 VRM,联动眨眼、口型、表情与肢体动作,并通过音频增益分析实现口型同步。
基于 Windows 自带的 DictationRecognizer,实现无需外部 API 的离线常时监听模式。
以 JSON 接收 LLM 输出,严格控制对话方针与上下文,并按用途选择模型。
利用 VOICEVOX 本地 API 逐步合成,通过 GPU 加速缩短响应时间,让对话节奏更自然。
使用 PlayerPrefs 保存设定与历史,随时调用已生成的角色并继续对话。
用户输入的自然语言会被转换成包含人格、外观与声音的 JSON,并立即应用。通过架构校验排除异常值,提供稳定的生成体验。
例如:“想要一个温柔又聪明的青梅竹马女孩。” 可以尽情发挥想象。
依据 response_format=json_schema 定义,结构化输出人格设定。
自动加载模型、调整材质并设置 VOICEVOX 说话人,立即开始对话。
保存生成设定,应用重启后也能以相同人格与记忆继续交流。
摆脱僵化的回合制,常时监听架构允许用户在 AI 说话途中插话,插入反应的节奏接近人与人之间的闲聊。
分析不同模型的响应特性,通过流式合成与 GPU 生成加速反馈,让对话更有活力。
规划中的“个人 AI 云”将角色设定保存在云端,让用户在手机或浏览器中也能与同一人格对话。
实现“就算关闭应用 AI 依然存在”的连续人格体验,是我们追求的目标。
我们设想在商业设施和公共场所中,面向场景定制的角色能以多语言提供信息,成为互动型的导览方式。
通过对话而非静态画面,角色可以根据情境给出恰当的引导。
这个始于兴趣的项目跨越多种技术,一直在探索“人与 AI 的对话体验”。即使资源有限,我们也把想到的改进迅速付诸实现,持续前进。
为了跟上生成式 AI 的飞跃式发展,我们不断更新知识,追求更丰富的对话与表现。