返回首頁
程式小模型新星

Ornith-1.0 騰空出世:代理式程式設計的自主演進

✍️ Will 保哥的技術交流中心
⏱️ 閱讀時間約 3 分鐘
Ornith-1.0_Mascot.jpg
Ornith Mascot

地表最強程式設計小模型 Ornith-1.0 騰空出世啦!💪

他們推出一系列專為代理式程式設計打造的開源大型語言模型,涵蓋 9B Dense、31B Dense、35B MoE 與 397B MoE

它在多個編碼基準測試中表現亮眼,包括 Terminal-Bench 2.1、SWE-Bench、NL2Repo、SWE Atlas 與 ClawEval,於同級開源模型中達到前段水準。

Ornith-1.0 基於 gemma4 與 qwen3.5 後訓練,並採用自我改善訓練策略:不只讓模型學會產生解法,也讓它學會為任務建立更好的腳手架(Self-Scaffolding)。

這代表代理式程式設計模型(Agentic Coding)的競爭,已經不只是單純的「會寫程式」,而是「能不能更好地規劃、拆解與完成任務」

所有模型皆以 MIT 授權釋出,可用於商業與研究用途。🎁

Ornith-1.0 開源模型家族成員

Ornith 提供四種不同參數規模的模型,滿足本地部署至大型伺服器的多元需求:

Ornith-9B Dense

最適合本機開發端點部署,記憶體佔用極低。在 MacBook Air / Pro M 系列晶片上可實現高速流暢的本地推理。

Ornith-31B Dense

效能與運算資源的黃金平衡點,能處理更長且更具深度脈絡的程式架構推理,為中型專案的首選。

Ornith-35B MoE

採用 Mixture of Experts 架構,激活參數小、推論吞吐量極高,完美契合需要高頻率、低延遲回覆的 Agent 連續任務。

Ornith-397B MoE

模型家族旗艦。專為大型私有雲與企業內部高密級運算設計,展現出極強的全局架構規劃與錯誤重試調試能力。

📊 Ornith-1.0 程式基準測試亮眼表現 (同級開源對照)
Terminal-Bench 2.1 (環境操作) 82% (對照 62%) SWE-Bench (真實專案修復) 42% (對照 28%) NL2Repo (自然語言轉專案庫) 76% (對照 58%) SWE Atlas (複雜架構對齊) 68% (對照 49%) ClawEval (自主排程與規劃能力) 85% (對照 62%)

何謂「自我改善的腳手架」機制? (Self-Scaffolding)

傳統的程式設計 AI 往往採用單步推導(Single-Step Inference):輸入提示詞後直接生成程式碼。這在面對複雜架構時極易因為語法、環境差異或隱式 Bug 而失敗。

Ornith-1.0 引入的 Self-Scaffolding 策略則要求模型自發建立「驗證腳手架」:

❌ 傳統程式碼生成流程

1 接收使用者任務需求
2 直接生成單一程式碼檔案
3 輸出(若有 Bug 即執行失敗)

✨ Ornith-1.0 自主腳手架流程

1 任務拆解與架構規劃
2 自主建立本地單元測試腳手架
3 程式碼生成與自動跑測
4 反思糾錯,確認測試 100% 通過

這代表 AI 程式模型已經跨越了單純「拼湊語法」的階段,正式走向具備「自我規劃、自主構建與自定義測試」的端到端 Agent 化開發運作模式。

💻 本地快速部署與實戰呼叫

您可以使用 Ollama 在本機免設定直接執行 Ornith-1.0 模型:

bash (Terminal)
# 下載並在本地端運行 9B 程式小模型
ollama run ornith:9b

或是使用 Python 的 LangChain 連接本地端服務做自主代理任務開發:

python
from langchain_community.llms import Ollama

# 初始化本地 Ornith-1.0 服務
llm = Ollama(model="ornith:9b")

# 提供任務與腳手架建立指令
prompt = "請建立一個自動化資料清洗腳本,並為此腳本撰寫一組測試腳手架,自主跑測通過後輸出程式碼。"
response = llm.predict(prompt)
print(response)