谷歌Gemini多模态大模型,主要是听懂声音和分析图像。是GPT-4无法企及的。
佳都科技股友
2023-12-11 10:09:00
来自上海
  • 3
  • 10
  •   ♥  收藏
  • A
    分享到:
【问】谷歌Gemini多模态大模型,主要是听懂声音和分析图像。是GPT-4无法企及的。贵公司的多模态大模型,拥有冻结视觉模块(Visual Encoder)和语言模型(PCITransGPT),使用大量图文数据将图像和文本知识进行对齐;l指令微调阶段:构造多样性的文本和多模态联合数据,保持视觉模块冻结,将视觉对齐模块和语言模型进行全参微调,使得模型能够具备更丰富的多模态理解能力。是否如此? 【答】佳都科技:投资者您好!是的,您理解得非常准确,公司TransCore-M多模态大模型能够理解文本、图像、视频等多种模态的信息,并且按照用户需求将其进行描述、提示或转化为指令代码,是个非常“聪明”的交通信息小助手。¶¶2023-12-11 14:42:00 §
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500