Çin chatbot'unun en son modeli olan DeepSeek-V3.2-Exp, DSA, verimlilik, API ve dağıtımı tanıtıyor

  • V3.2-Exp, minimum kalite kaybıyla uzun bağlamı hızlandırmak için DSA'yı tanıtıyor.
  • V3.1-Terminus ve API fiyatlandırmasıyla performans eşitliği -%50 artık yayında.
  • Açık kaynak: Hugging Face'deki ağırlıklar, TileLang, DeepGEMM ve FlashMLA'daki çekirdekler.
  • Pratik rehber: uç noktalar, akış, fonksiyon çağırma ve yerel yürütme.

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp vardı Ölçekte ve uzun bağlamlarda verimliliğe odaklanan, topluluğa açık bir selam gönderen deneysel bir yineleme olarak: açık kaynak, yayınlanmış çekirdekler ve daha ucuz bir API.

Gürültünün ötesinde, asıl mesele bu modelin, V3.1-Terminus'a dayalı, eğitim ve çıkarımı hızlandırırken kaliteyi koruyan DeepSeek Sparse Attention (DSA) adlı ince ayrıntılı bir seyrek dikkat mekanizmasını kullanıma sunuyor. Şirket, bu mekanizmayı halihazırda piyasaya sürdü. Uygulama, Web ve APIve kullanım fiyatlarını % 'den fazla azalttı 50%, açıkçası rekabeti sıkıştıran agresif bir hamle.

DeepSeek-V3.2-Exp'in temel yeni özellikleri

Yıldız yenilik, DSA'dır; bu da seçici dikkat Tüm sekansı ayrıntılı bir şekilde incelemeden, bağlamın ilgili kısımlarına odaklanın. Şirketin kendi ifadesine göre, kalite üzerindeki etki çok düşükken, verimlilik artışı uzun vadede somuttur.

Kullanılabilirlik açısından, model şu şekilde çalışır: uygulama, web ve API İlk günden itibaren, test ve benimsemeyi kolaylaştırmak için önemli bir fiyat düşüşü (%50+) eşlik ediyor. Karşılaştırma yapmak isteyenler için DeepSeek, geçici uç nokta V3.1-Terminus'tan 15 Ekim 2025, 15:59 UTC'ye kadar.

DeepSeek-V3.2-Exp performansı ve kıyaslamaları: V3.1-Terminus ile eşitlik

DeepSeek şunu aradı: eşitlik V3.1-Terminus ile çok çeşitli testlerde, özellikle de dağınık dikkatin etkisini izole etmek için. Pratikte bu, akıl yürütmede karşılaştırılabilir ölçütlerle sonuçlanır. kodlama ve ajan tipi araçların kullanımı.

Çeşitli kaynaklar beklentileri belirlemeye yardımcı olan rakamlar sağlar: V3.2-Exp, bir model olarak tanımlanmaktadır 685 milyar parametre ve benzer performans veya alana bağlı olarak küçük farklılıklar olabilir. Araçsız muhakemede 85.0 gibi sayılar belirtilir. MMLU-Pro ve 89.3 in 2025; ajan senaryolarında 40.1 görünür BrowseComp ve 67.8 in SWE DoğrulandıBunlar resmi anlatıya uyan sonuçlardır. verimliliği doğrulamak doğrulukta büyük bir sıçrama peşinde koşmak yerine.

Hatta güzel karşılaştırmalar bile var: Kodlama görevlerinde, bir artış 2121 Codeforces'ta 2046'ya kıyasla, daha insancıl testlerde ise hafif düşüşler gözlemleniyor (örn. 19.8 (İnsanlığın Son Sınavı'ndaki 21.7 ile karşılaştırıldığında) Genel olarak, tablo şunu gösteriyor: dengelemek: hıza odaklanılarak belirli iyileştirmeler ve küçük tavizler.

DSA: İnce ayrıntılı, dağınık dikkat, açıkça anlatılmış

Klasik bakım geniş bağlamlarda pahalı hale gelir; DSA Az katkıda bulunduğu yerde işi en aza indirir. İnce taneli kontrolle seyreklik uygulayarak, model hesaplamayı gerçekten sinyal bulduğu yerde yoğunlaştırarak gecikme ve çıktıyı bozmadan tüketimi azaltmak.

Gerçek deneyim düzeyinde, bu, aşağıdakileri gerektiren görevlerde fark edilir: çok fazla bağlam: uzun belge özetleri, günlük analizleri, uzun diyaloglar tutan aracılar veya alma ve oluşturmayı birleştiren veri hatları. İşte tam da bu noktada, verimlilik Bu bir lüks değil: Bir şeyin büyük ölçekte kullanılabilir olması ile olmaması arasındaki farktır.

DeepSeek-V3.2-Exp kullanılabilirliği, fiyatlandırması ve karşılaştırmaları

DeepSeek, V3.2-Exp'in artık kullanıma sunulduğunu duyurdu Uygulama, Web ve APIAyrıca API'nin fiyatını da % 20'den fazla düşürdü. 50% derhal yürürlüğe girecek şekilde, benimsenmeyi genişletmeyi ve teşvik etmeyi amaçlayan bir karar karşılaştırmalı testler.

Önceki modelle karşılaştırmak isteyenler için V3.1-Terminus, son nokta 15.10.2025 15:59 (UTC) tarihine kadar geçici olarak Şirket ayrıca başvuruları da davet ediyor. geribesleme Kamusal bir form aracılığıyla, toplumla birlikte sürekli iyileştirme dinamiğini güçlendirerek.

Açık kaynak durumu: ağırlıklar, teknik rapor ve çekirdekler

DeepSeek, modeli Hugging Face'te yayınlıyor teknik rapor değişiklikleri ve sonuçları belgeleyen bir sistemdir. Şeffaflığa ve uzun vadeli uygulamalı araştırmaları teşvik etmeye yönelik açık bir taahhüt vardır. daha düşük maliyetler.

Çekirdek düzeyinde iki yol vardır: TileLang için okuma ve prototipleme daha erişilebilir ve maksimum performans için CUDA. Logit dizin çekirdekleri (sayfalanmış varyantlar dahil) DerinGEMM, dağınık dikkati olanlar ise şu şekilde yayınlanmaktadır: FlashMLABu ayrım, araştırma ve üretim odaklı toplulukların kendilerine uygun olanı bulmalarını kolaylaştırıyor.

DeepSeek-V3.2-Exp'in yerel yürütülmesi ve çıkarım demoları

DeepSeek bir depolama alanı sunar çıkarım Hızlı bir başlangıç ​​yapmak ve mimariyi incelemek için güncellenmiş bir demo kullanın. İlk adım, Hugging Face ağırlıklarını demo tarafından beklenen biçime dönüştürmek, uzman sayısını ve model paralelliğini belirlemektir.

Etkileşimli dönüştürme ve oluşturma için örnek komutlar (EXPERTS=256 ve MP'yi GPU sayısına ayarlayın): olduğu gibi kullanılabilir hazırlanmış bir ortamda.

cd çıkarımı dışa aktar EXPERTS=256 python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP} dışa aktar CONFIG=config_671B_v3.2.json torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

tercih edenler için SGLang, hazırlanmış imajlar ve bir önyükleme komutu bulunmaktadır. Destek, NVIDIA (H200), AMD (MI350) GPU'ları ve belirli NPU'ları, belirli etiketlerle kapsar.

# H200 docker çekme lmsysorg/sglang:dsv32 # MI350 docker çekme lmsysorg/sglang:dsv32-rocm # NPU'lar docker çekme lmsysorg/sglang:dsv32-a2 docker çekme lmsysorg/sglang:dsv32-a3 python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

Eğer tercih edersen vLLM, ilk günden itibaren desteklenmektedir. Güncel parametreler ve kullanım kolaylığı için resmi tarifleri incelemeniz önerilir. optimizasyonlar donanıma göre.

API: Son Noktalar, Uyumluluk ve Son Kullanma Tarihleri

API'si Derin Arama Standart kuralları izler ve popüler SDK'larla uyumludur. Varsayılan olarak, temel URL kullanılır. https://api.deepseek.com ilk entegrasyonu ve erişimi basitleştiren V3.2-Exp'i hedefliyorsunuz düşürülen oran.

Karşılaştırma için V3.1-Terminus için geçici bir son nokta bulunmaktadır: https://api.deepseek.com/v3.1_terminus_expires_on_20251015Planlama yaparken son kullanma tarihini ve saatini (15 Ekim 2025, 15:59 UTC) aklınızda bulundurun. kriterler.

Ayrıca ekosistemle uyumluluk da vardır AntropikTabanı kullanabilirsiniz https://api.deepseek.com/anthropic Claude tarzı etkileşimler için veya önceki modelle karşılaştırmanız gerekiyorsa geçici uç noktayla ilişkili varyant için.

Kimlik doğrulama ve anahtar yönetimi

İstekler şu şekilde doğrulanır: taşıyıcı Yetkilendirme başlığında. Anahtarınızı DeepSeek panosundan oluşturun ve güvenli bir şekilde, örneğin ortam değişkenlerinde veya dosya yöneticilerinde saklayın. secretos AWS Secrets Manager olarak.

Panel, tüketimi kontrol etmek için kullanım ve faturalandırmayı gösterir token kazanabilirsiniz.Fiyatlar düşmüş olsa da, bilgisayarlarda herhangi bir kısıtlamayı kaldırmanın yanı sıra, hız sınırlaması ve periyodik anahtar rotasyonu uygulanması tavsiye edilir. tehlikeye atılmış anahtar Gecikmesiz.

Sohbet tamamlamaları, şablonlar ve temel istekler

Merkezi son nokta şudur: /sohbet/tamamlamalarÇoklu dönüşümlü diyalogları işleyen ve çağrılar arasında bağlamı koruyan , V3.2-Exp'in uzun bağlamlı güçlü yönleri için ideal bir senaryodur. İki tipik model modu vardır: derin arama-sohbet y derin arama-akılcı.

Basit bir istek gövdesi, kaçış karakterli JSON kullanılarak şöyle görünebilir (burada açıklık sağlamak için " olarak gösterilmiştir): bir sistem istemi ve bir kullanıcı istemi içerir.

{ "model": "deepseek-chat", "messages": [ { "role": "system", "content": "Teknik bir uzmansınız." }, { "role": "user", "content": "Dikkat eksikliğini açıklayın." } ], "stream": false }

Gerçek zamanlı yanıtlar istediğinizde etkinleştirin akış=doğruBaşlıklar, Content-Type: application/json ve Authorization token: Bearer ${DEEPSEEK_API_KEY} içermelidir. Açık bir mantıkla çalışıyorsanız, davranışı bayrakla kontrol edebilirsiniz. muhakeme.etkinleştirildi.

Yanıt yapısı ve SSE akışı

Akış dışı yanıtlar şu alanları içerir: id, nesne, yaratılan, model, seçimler ve kullanım. Seçimlerde, oluşturulan içeriği (rol: "asistan") ve kullanımda ise ayrıntıları bulacaksınız. istem_belirteçleri, completion_tokens ve total_tokens.

Akış modunda, API gönderir Sunucu Tarafından Gönderilen OlaylarHer parça, biriktirmeniz gereken bir delta içeren bir veri olayı olarak gelir. Bu, aşağıdakiler için ideal bir seçenektir: arayüzler etkileşimli veya artımlı çıktıya sahip terminaller.

Fonksiyon çağrısı ve sıkı JSON'da çıktı

Tanımlayabilirsiniz araçları Böylece model, örneğin veri almak veya eylemleri yürütmek için bir fonksiyonu ne zaman çağıracağına karar verir. Bu, aracı akışları ve entegrasyonlarla uyumludur. arka uç.

Yapılandırılmış çıktıya ihtiyacınız varsa, response_format kullanarak JSON modunu zorlayın. Bu, veri ayıklama veya onaylama boru hatlarında otomatik.

OpenAI tarzı SDK ile Python örnekleri

Python ile giriş eğrisi oldukça düzgündür. api_base DeepSeek gibi, anahtarı tanımlayın ve istekleri başlatın; kullanım durumunuza bağlı olarak standart ve akış modu arasında geçiş yapabilirsiniz.

import openai openai.api_base = "https://api.deepseek.com" openai.api_key = "your_api_key_here" response = openai.ChatCompletion.create( model="deepseek-chat", messages=[ {"role": "system", "content": "Siz bir kodlama asistanısınız."}, {"role": "user", "content": "Fibonacci sayılarını hesaplamak için bir Python fonksiyonu yazın."} ], stream=False ) print(response.choices[0].message.content) # Akış stream = openai.ChatCompletion.create(model="deepseek-chat", messages=[...], stream=True) for chunk in stream: if chunk.choices[0].delta.content is not None: print(chunk.choices[0].delta.content, end="") # Fonksiyon çağırma (araç tanımı) tools = [ { "type": "function", "function": { "name": "get_weather", "description": "Güncel hava durumunu al", "parameters": { "type": "object", "properties": { "location": {"type": "string"} }, "required": [ "location" ] } } } ]

Sıkı JSON çıktısı için şunu ayarlayın: yanıt_biçimi {"type": "json_object"}. Ve eğer uzun diyaloglar yapacaksanız, şunu unutmayın: bağlamı daraltmak Sizi sınırlar içerisinde tutmak ve verimliliğinizi en üst düzeye çıkarmak için.

Apidog ile Entegrasyon

Apidog hızlandırır prototipleme Geri arama: Spesifikasyonları içe aktarın, ortam değişkenlerini (anahtar gibi) kaydedin, POST'lar oluşturun ve anında test edin. Yanıt simülatörü, aşırı durumları ek ücret ödemeden test etmeyi kolaylaştırır. token kazanabilirsiniz..

Ayrıca farklı kod parçacıkları da üretir deyimler ve kimlik doğrulama veya parametrelerin hata ayıklaması için bir zaman çizelgesi görünümü sunar. V3.2-Exp geniş bağlamları ele aldığından, Apidog ile denemeler yapmak harika bir yoldur. uzun istemler ve performansı görün.

En iyi şekilde yararlanmak için iyi uygulamalar

Sistem istemlerini tanımlayın açık ve öz Davranışı sınırlayan. Karmaşık problemler için, muhakeme modu, durumunuza uygun düşünce yapılandırma teknikleriyle birleştirilerek yardımcı olabilir.

yönet bağlam Başlığıyla: V3.2-Exp uzun bağlamı tolere etse de (128K'ya kadar olan vakalar alıntılanmıştır), aşırı geçmiş verimliliği olumsuz etkileyebilir. Akıllı kesmeyi uygular. gizli Mantıklı olduğu durumlarda sık ve toplu sorgular için.

Güvenlikte, ani enjeksiyonları önlemek için girdileri temizler ve etkileşimleri kaydeder denetim. Hedefinize göre sıcaklığı ve top_p değerini ayarlayın: determinizm için düşük değerler, yaratıcılık için yüksek değerler.

A/B testleri gerçekleştirin derin arama-sohbet y derin arama-akılcı En uygun modu seçmek için. Ve sürprizlerden kaçınmak için hız sınırını unutmayın. Facturacion.

V3.1-Terminus ile karşılaştırma

DSA'nın tanıtımı, iyileştirmeler getiriyor gecikme Bazı senaryolarda, genel kalite eşitliğinden ödün vermeden 3 kat hıza ulaşan bir evrim. Bu, ilişkiye odaklanan bir evrim. güç/verimlilik doğruluk kayıtlarından daha fazla.

Kodlamadaki küçük artışlar ve beşeri bilimler alanlarındaki hafif düşüşler, tasarım gereği bir modelin ince ayarını yansıtıyor. deneyselV3.1 zamansal uç noktası, uzun vadede DSA kazanımlarını gösteren doğrudan karşılaştırmalara olanak tanır.

Gelişmiş yerel dağıtım

Gizliliğe duyarlı veya çevrimdışı dağıtımlar için şunu indirin: Peso Hugging Face'den alıp resmi dönüştürme betiklerini kullanmak en iyi yoldur. Uzman sayısını belirleyin (örneğin 256) ve model paralelliğini ihtiyaçlarınıza göre ayarlayın. GPU'lar.

Çıkarım demosu etkileşimli modda test yapılmasına olanak tanır ve çekirdekler DöşemeLang veya CUDA, önceliklere göre performansı sıkıştırmanıza yardımcı olacaktır: prototipleme hızı veya maksimum verim üretimde.

Açık çekirdekler ve performans

TileLang önceliklendirir okunabilirlik ve araştırma için tasarım, böylece yeni fikirler üzerinde hızla yineleme yapabilirsiniz. Bakım çeşitlerini araştırıyorsanız mükemmeldir. dağınık veya bellek optimizasyonları.

Her milisaniyeyi sıkıştırmak için CUDA çekirdekleri devreye giriyor: logit endeksleri (sayfalanmış sürümlerle) DerinGEMM, dağınık dikkati olanlar ise FlashMLABu segmentasyon, her ekibin kendi takımını seçmesine olanak tanır yığın tekrar iş yapmadan en iyi şekilde.

DeepSeek-V3.2-Exp Lisans, Randevu ve İletişim

Depo ve Peso Model, MIT lisansı altında yayınlanmıştır. Bu, büyük bir esneklikle ticari kullanımlara kapı açar, benimsenmesini teşvik eder ve yenilik ekosistemde.

V3.2-Exp'e işlerde başvurmak için DeepSeek bir randevu girişi @misc türünde, "DeepSeek-V3.2-Exp: DeepSeek Seyrek Dikkat ile Uzun Bağlam Verimliliğini Artırma" başlıklı ve "DeepSeek-AI" (2025 yılı) yazarı olan bir çalışmadır. Sorularınız veya sorunlarınız için iletişim e-postası: hizmet@deepseek.com.

DeepSeek-V3.2-Exp hakkında resmi kaynaklar ve faydalı bağlantılar

Modeli indirmek istiyorsanız, şurada bulabilirsiniz: Sarılma YüzBeyaz bülten GitHub'da, uygulama ayrıntılarıyla birlikte mevcuttur değerlendirmeler.

V3.2-Exp ve V3.1-Terminus arasındaki karşılaştırma testleri için bkz. Resmi rehberVe eğer öneriler göndermek istiyorsanız, bir kanalınız var geribesleme https://feedback.deepseek.com/dsa adresinden kamuoyuna duyurulacaktır.

V3.2-Exp ile DeepSeek basit bir fikre öncelik veriyor: kaliteyi feda etmeden verimlilikDSA, makul bir maliyetle büyük bağlamları destekleyen modeller için yolu açar, akıcı API bu yetenekleri daha fazla ekibe sunar ve yığının açıklığı (ağırlıklar, çekirdekler ve belgeler) topluluğun gerçek ürünleri sürtünme olmadan araştırmasını, karşılaştırmasını ve oluşturmasını kolaylaştırır.