C114通信網(wǎng)  |  通信人家園

人工智能
2025/1/15 13:06

Kimi多模態(tài)圖片理解模型API發(fā)布,1M tokens定價(jià)12元起

IT之家  汪淼

月之暗面今日發(fā)布了 Kimi 多模態(tài)圖片理解模型 API,全新多模態(tài)圖片理解模型 moonshot-v1-vision-preview(以下簡稱“Vision 模型”)完善了 moonshot-v1 模型系列的多模態(tài)能力。

模型能力說明

圖像識(shí)別

Vision 模型具備圖像識(shí)別能力,能夠識(shí)別出圖像中的復(fù)雜細(xì)節(jié)和細(xì)微的差別,無論是食物還是動(dòng)物,能夠區(qū)分出相似但又不相同的對象。

下圖示例中,官方拼湊了 16 張相似的人眼較難區(qū)分的藍(lán)莓松餅和吉娃娃圖片,由 Vision 模型來識(shí)別并按順序標(biāo)記圖片類型,無論是藍(lán)莓松餅還是吉娃娃,模型都能精確地區(qū)分和識(shí)別。

文字識(shí)別和理解

Vision 模型具備高級圖像識(shí)別能力,在 OCR 文字識(shí)別和圖像理解場景中,比普通的文件掃描和 OCR 識(shí)別軟件更加準(zhǔn)確,例如收據(jù)單 / 快遞單等潦草的手寫內(nèi)容都可以準(zhǔn)確識(shí)別。

以這張《某學(xué)生期末考試成績》柱狀圖為例,官方讓模型提取分析考試成績,并從美學(xué)風(fēng)格的角度分析一下該柱狀圖。Vision 模型也能夠精準(zhǔn)地識(shí)別出柱狀圖中每個(gè)科目名稱對應(yīng)的分?jǐn)?shù)數(shù)值并做分?jǐn)?shù)對比,同時(shí)可以識(shí)別出該柱狀圖的樣式格式和顏色等。

模型計(jì)費(fèi)

Vision 模型實(shí)行按量計(jì)費(fèi)方式,單張圖片按 1024 tokens 合并計(jì)算在 Input 請求的 tokens 用量中,模型調(diào)用的價(jià)格根據(jù)選擇的模型而不同,IT之家附具體區(qū)分如下:

 

模型 計(jì)費(fèi)單位 價(jià)格
moonshot-v1-8k-vision-preview 1M tokens ¥12.00
moonshot-v1-32k-vision-preview 1M tokens ¥24.00
moonshot-v1-128k-vision-preview 1M tokens ¥60.00

 

模型限制說明

Vision 視覺模型支持的特性包括:

多輪對話

流式輸出

工具調(diào)用

JSON Mode

Partial Mode

以下功能暫未支持或部分支持:

聯(lián)網(wǎng)搜索:不支持

Context Caching:不支持創(chuàng)建帶有圖片內(nèi)容的 Context Cache,但支持使用已經(jīng)創(chuàng)建成功的 Cache 調(diào)用 Vision 模型

URL 格式的圖片:不支持,目前僅支持使用 base64 編碼的圖片內(nèi)容

其他平臺(tái)更新

支持組織項(xiàng)目管理功能

支持一個(gè)企業(yè)實(shí)體認(rèn)證多賬號

增加 File 文件資源管理功能:直觀管理查看文件資源

優(yōu)化資源管理列表鼠標(biāo)懸浮復(fù)制

Context Caching 功能已放開給全量用戶

Cache 續(xù)期不再收取創(chuàng)建的費(fèi)用

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141