月之暗面今日發(fā)布了 Kimi 多模態(tài)圖片理解模型 API,全新多模態(tài)圖片理解模型 moonshot-v1-vision-preview(以下簡稱“Vision 模型”)完善了 moonshot-v1 模型系列的多模態(tài)能力。
模型能力說明
圖像識(shí)別
Vision 模型具備圖像識(shí)別能力,能夠識(shí)別出圖像中的復(fù)雜細(xì)節(jié)和細(xì)微的差別,無論是食物還是動(dòng)物,能夠區(qū)分出相似但又不相同的對象。
下圖示例中,官方拼湊了 16 張相似的人眼較難區(qū)分的藍(lán)莓松餅和吉娃娃圖片,由 Vision 模型來識(shí)別并按順序標(biāo)記圖片類型,無論是藍(lán)莓松餅還是吉娃娃,模型都能精確地區(qū)分和識(shí)別。
文字識(shí)別和理解
Vision 模型具備高級圖像識(shí)別能力,在 OCR 文字識(shí)別和圖像理解場景中,比普通的文件掃描和 OCR 識(shí)別軟件更加準(zhǔn)確,例如收據(jù)單 / 快遞單等潦草的手寫內(nèi)容都可以準(zhǔn)確識(shí)別。
以這張《某學(xué)生期末考試成績》柱狀圖為例,官方讓模型提取分析考試成績,并從美學(xué)風(fēng)格的角度分析一下該柱狀圖。Vision 模型也能夠精準(zhǔn)地識(shí)別出柱狀圖中每個(gè)科目名稱對應(yīng)的分?jǐn)?shù)數(shù)值并做分?jǐn)?shù)對比,同時(shí)可以識(shí)別出該柱狀圖的樣式格式和顏色等。
模型計(jì)費(fèi)
Vision 模型實(shí)行按量計(jì)費(fèi)方式,單張圖片按 1024 tokens 合并計(jì)算在 Input 請求的 tokens 用量中,模型調(diào)用的價(jià)格根據(jù)選擇的模型而不同,IT之家附具體區(qū)分如下:
模型 | 計(jì)費(fèi)單位 | 價(jià)格 |
moonshot-v1-8k-vision-preview | 1M tokens | ¥12.00 |
moonshot-v1-32k-vision-preview | 1M tokens | ¥24.00 |
moonshot-v1-128k-vision-preview | 1M tokens | ¥60.00 |
模型限制說明
Vision 視覺模型支持的特性包括:
多輪對話
流式輸出
工具調(diào)用
JSON Mode
Partial Mode
以下功能暫未支持或部分支持:
聯(lián)網(wǎng)搜索:不支持
Context Caching:不支持創(chuàng)建帶有圖片內(nèi)容的 Context Cache,但支持使用已經(jīng)創(chuàng)建成功的 Cache 調(diào)用 Vision 模型
URL 格式的圖片:不支持,目前僅支持使用 base64 編碼的圖片內(nèi)容
其他平臺(tái)更新
支持組織項(xiàng)目管理功能
支持一個(gè)企業(yè)實(shí)體認(rèn)證多賬號
增加 File 文件資源管理功能:直觀管理查看文件資源
優(yōu)化資源管理列表鼠標(biāo)懸浮復(fù)制
Context Caching 功能已放開給全量用戶