亞馬遜云科技上線Amazon Nova多模態嵌入模型
專為Agentic RAG與語義搜索量身打造,以行業頂尖的準確率實現跨模態檢索
北京2025年10月29日 /美通社/ -- 亞馬遜云科技宣布,Amazon Nova Multimodal Embeddings多模態嵌入模型現已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖多模態嵌入模型。該模型是首個通過單一模型支持文本、文檔、圖像、視頻與音頻的統一嵌入模型,能以行業頂尖的準確率實現跨模態檢索。
當今,企業正不斷尋求解決方案,以期從文本、圖像、文檔、視頻、音頻等海量非結構化數據中挖掘價值。例如,某企業可能擁有產品圖片、包含信息圖與文字的宣傳冊,以及用戶上傳的視頻片段。嵌入模型被廣泛應用于這些場景,它可將文本、視覺、音頻輸入轉換為數值表示形式的嵌入向量,這些嵌入向量會捕捉輸入內容的語義信息,供AI系統進行比較、搜索與分析,為語義搜索、檢索增強生成(RAG)等場景提供技術支撐。盡管嵌入模型能夠挖掘非結構化數據的價值,但傳統模型通常僅擅長處理單一類型的內容。這一局限迫使客戶要么構建復雜的跨模態嵌入解決方案,要么僅局限于單一內容類型的應用場景。這一問題同樣存在于混合模態內容類型,例如文本與圖像內容交織的文檔,或融合視覺、音頻、文本元素的視頻,現有模型也難以有效捕捉這類內容中的跨模態關聯。
Amazon Nova多模態嵌入模型正為解決上述挑戰而生!它為文本、文檔、圖像、視頻、音頻構建了統一的語義空間,可支持多種場景,包括混合模態內容的跨模態搜索、基于參考圖像的搜索,以及視覺文檔檢索。
開發團隊基于各類基準測試對該模型性能進行了評估,結果顯示,其開箱即用的準確率處于領先水平。Amazon Nova多模態嵌入模型支持的上下文長度最高達8000 tokens,可處理的文本語言多達200種,并能通過同步與異步API接收輸入。此外,它支持分段處理功能(也稱為 "分塊",Chunking),可將長文本、視頻或音頻內容拆分為易于處理的片段,并為每個片段生成嵌入向量。最后,該模型提供四種輸出嵌入維度,采用套娃表征學習(Matryoshka Representation Learning,MRL)訓練,能在幾乎不影響準確率的前提下,實現低延遲的端到端檢索。
Amazon Nova多模態嵌入模型提供四種輸出維度選項:3072、1024、384和256。輸出維度越大,生成的表征信息則越詳細,但也需要占用更多的存儲空間和計算資源。相反,輸出維度越小,則能在檢索性能與資源效率之間實現更實用的平衡。這種靈活性可幫助用戶根據具體應用場景和成本需求進行優化。
該模型能處理較長的上下文內容。對于文本輸入,它單次可處理多達8192個tokens;對于視頻和音頻輸入,支持處理長達30秒的片段,且能對更長的文件進行分段處理。在處理大型媒體文件時,這種分段能力尤為實用——模型會將文件拆分為易于處理的片段,并為每個片段生成嵌入向量。
該模型包含集成了內置于Amazon Bedrock的負責任的AI功能。提交用于生成嵌入向量的內容會經過Amazon Bedrock內容安全過濾器的檢測,同時模型還內置公平性措施以減少偏差。
該模型可通過同步和異步API調用。同步API適用于需要即時響應的實時應用場景,例如在搜索界面中處理用戶查詢;異步API則能更高效地處理對延遲不敏感的工作負載,因此更適合處理視頻等大型內容。
Amazon Nova多模態嵌入模型現已在Amazon Bedrock上線,可用區域包括美國東部(弗吉尼亞北部)的亞馬遜云科技區域。
即刻體驗Amazon Nova多模態嵌入模型,開啟多模態AI應用構建之旅!更多詳情可參閱Amazon Bedrock頁面及《Amazon Nova用戶指南》文檔。
[美通社]【免責聲明】本文僅代表作者個人觀點,與云財經無關。其原創性以及文中陳述文字和內容未經本站證實,云財經對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
| 新聞標題 | 時間 | 消息來源 | 新聞熱度 |
|---|---|---|---|
| 康緣藥業:全資子公司藥品增加適應癥獲批準 | 10-29 17:59 | 云財經 |
|
| 倫銅再創收盤歷史新高 | 10-29 02:05 | 云財經 |
|
| 花旗上調馬來西亞2025年GDP預測 | 10-28 13:58 | 云財經 |
|
| 晨化股份:3.5萬噸烷基糖苷項目預計年底前建成 | 10-27 09:01 | 云財經 |
|
| 津巴布韋舉行“反制裁日”活動 敦促西方國家解除非法制裁 | 10-25 23:25 | 云財經 |
|
| 貴州省能源局局長陳華接任茅臺集團董事長 | 10-25 15:58 | 云財經 |
|
