专业赛事推荐平台 大神李沐总结B站「作念了个及时数字东说念主」,直言「水平吊打我我方」

时隔近一年,阿谁在 B 站教环球阅读 AI 论文的大神李沐 @跟李沐学 AI,终于总结了!

在最新一期视频中,李沐「作念了个及时数字东说念主」,并与 TA 进行视频对话,从视频来看,数字东说念主形象如实挺传神的,用他我方的话说,「水平吊打我我方」!

而这背后的时间恰是李沐的创业公司——BosonAI 发布的一款名为 Higgs Avatar v1 的模子:面向语音智能体的及时数字东说念主。
NBA下注(中国)官网入口官方先容,四肢一个及时基础模子,Higgs Avatar v1大约为客服对话、诬捏助手、培训以及互动体验带来更接近真东说念主的数字化形象与临场感。

而且操作起来十分简便,只需要一张静态图片,就能生成灵活、阔气阐扬力的面部颜料,并救济话语、倾听和复兴。所有操作都以逐帧神情完成,并与音频保抓同步。
BosonAI 团队先容,赛车pk10官网平台首页上述李沐的展示的视频内容竣工由 AI 生成,不仅莫得预设剧本,也莫得动画制作进程、预渲染轮回,每一帧都是及时渲染完成的 —— 包括声息、对话、口型同步、头部动作和颜料。
况且,整套进程仅在单张 H100 上就不错运行。
底下再来看几个官方给的使用案例,环球来评一评遵循如何?
及时保障 Agent 展示:

AI 栽植饱读吹用户的 Demo 展示:

AI 艾伦・图灵访谈:

两个 AI 诬捏形象在研究东说念主类情怀:

证据 Boson AI 团队线路的时间细节,世界杯竞猜网站Higgs Avatar v1 具备以下四大中枢上风:
无剧本的轻佻扮演:模子会随着语音流,逐帧及时渲染出唇形同步、头部动作和面部颜料。你听到什么,就看到什么,竣工是轻佻证明。
开局一张图,剩下全靠 AI:不需要好莱坞级别的 3D 动捕,也不必事先录制僵硬的轮回顾频。只须给它一张静态像片,Higgs Avatar v1 就能一霎生成一个会听、会说、会给反馈的动态面容。
快到莫得「时差」:业界公认保抓及时对话不卡顿的蔓延底线是 62.5 毫秒,而 Higgs Avatar v1 生成一帧画面只需要16 毫秒!这意味着数字东说念主的颜料永恒牢牢贴合声息,毫不忽闪其词。
极致的算力性价比:关于企业级行使而言,本钱是落地的要害。单张 H100 GPU 即可同期救济 8 路及时对话并发,将单次对话的本钱压缩到了竣工大约满足大限度分娩部署的水平。

Higgs Avatar v1 的发布,为 Boson AI 的居品栈补王人了一块要害的视觉拼图。
在实质业务场景(如保障销售、企业栽植、诬捏口试及互动文娱等)中,Boson AI 现已变成了双擎驱动的格式:Higgs Audio 追究语音的讨好与生成,Higgs Avatar 追究赋予 AI 确切的「面目」。
「咱们之是以坚抓自研基础模子,是因为分娩环境中的对话式 AI 无法由外部组件对付而成。」 Boson AI 团队在发布声明中强调。
若是仅仅把现成的外部 API 缝合在一说念,蔓延卡顿、抢话冲突、声息跟颜料脱节等问题根柢没法贬责。只好重新运转全栈自研,把声学与面部颜料的情怀对王人、端到端的使命流编排死死咬合在一说念,智力透彻松弛交互的隔膜。
当今,Higgs Avatar v1 照旧插足内测(Private Preview)阶段,接下来会搭载在他们行将推出的语音聊天体验居品 Boson Presence 中庸环球碰头。
迫不足待念念望望沐神新作品的同学们,不错去官网排个 Waitlist 占坑了。关于有企业集成、定制模子或 API 拜谒需求的客户,也可奏凯通过官方邮箱相干。
B 站视频:https://www.bilibili.com/video/BV1pB586fEap/?spm_id_from=333.1387.upload.video_card.click
更多见: https://www.boson.ai/blog/higgs-avatar-v1
加入试用:https://tally.so/r/VLvKgE