谷歌Gemini多模态大模型，主要是听懂声音和分析图像。是GPT-4无法企及的。_佳都科技(600728)股吧

股吧首页 > 佳都科技吧 > 帖子正文

返回佳都科技吧 >

谷歌Gemini多模态大模型，主要是听懂声音和分析图像。是GPT-4无法企及的。

佳都科技股友

2023-12-11 10:09:00

来自上海

3
10
♥ 收藏
A
大中小

分享到：

【问】谷歌Gemini多模态大模型，主要是听懂声音和分析图像。是GPT-4无法企及的。贵公司的多模态大模型，拥有冻结视觉模块（Visual Encoder）和语言模型（PCITransGPT），使用大量图文数据将图像和文本知识进行对齐；l指令微调阶段：构造多样性的文本和多模态联合数据，保持视觉模块冻结，将视觉对齐模块和语言模型进行全参微调，使得模型能够具备更丰富的多模态理解能力。是否如此？【答】佳都科技：投资者您好！是的，您理解得非常准确，公司TransCore-M多模态大模型能够理解文本、图像、视频等多种模态的信息，并且按照用户需求将其进行描述、提示或转化为指令代码，是个非常“聪明”的交通信息小助手。¶¶2023-12-11 14:42:00 §

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！