DeepSeek prezanton modelin e ri të IA-së që ‘mbyll boshllëkun’ me modelet e nivelit të lartë

Laboratori kinez i IA-së DeepSeek ka lançuar dy versione paraprake të modelit të tij më të ri të gjuhës së madhe, DeepSeek V4, një përditësim i shumëpritur i modelit V3.2 të vitit të kaluar dhe modelit shoqërues të arsyetimit R1 që pushtoi botën e IA-së.

Kompania thotë se si DeepSeek V4 Flash ashtu edhe V4 Pro janë modele me përzierje ekspertësh me dritare konteksti prej 1 milion tokenësh secili – të mjaftueshme për të lejuar përdorimin e bazave të mëdha të kodit ose dokumenteve në kërkesa. Qasja me përzierje ekspertësh përfshin aktivizimin vetëm të një numri të caktuar parametrash për detyrë për të ulur kostot e nxjerrjes së përfundimeve. Modeli Pro ka një total prej 1.6 trilion parametrash (49 miliardë aktivë), gjë që e bën atë modelin më të madh me peshë të hapur në dispozicion, duke tejkaluar Kimi K 2.6 të Moonshot AI (1.1 trilion), M1 të MiniMax (456 miliardë) dhe më shumë se dyfishin e DeepSeek V3.2 (671 miliardë)

. Modeli më i vogël, V4 Flash, ka 284 miliardë parametra (13 miliardë aktivë). DeepSeek thotë se të dy modelet janë më efikase dhe më performuese se DeepSeek V3.2 për shkak të përmirësimeve arkitekturore dhe pothuajse e kanë “mbyllur hendekun” me modelet kryesore aktuale, si të hapura ashtu edhe të mbyllura, në testet e arsyetimit. Kompania pretendon se modeli i saj i ri V4-Pro-Max i tejkalon homologët e tij me burim të hapur në testet e arsyetimit dhe i tejkalon GPT-5.2 dhe Gemini 3.0 Pro të OpenAI në disa detyra.

Në testet e konkurrencës së kodimit, DeepSeek tha se performanca e të dy modeleve V4 është “e krahasueshme me GPT-5.4”. Megjithatë, modelet duket se mbeten pak prapa modeleve të nivelit të lartë në testet e njohurive, konkretisht GPT-5.4 të OpenAI dhe Gemini 3.1 Pro më të fundit të Google. Kjo vonesë sugjeron një “trajektore zhvillimore që është pas modeleve të nivelit të lartë me afërsisht 3 deri në 6 muaj”, shkroi laboratori.

Si V4 Flash ashtu edhe V4 Pro mbështesin vetëm tekstin, ndryshe nga shumë nga homologët e tyre me burim të mbyllur, të cilët ofrojnë mbështetje për të kuptuar dhe gjeneruar audio, video dhe imazhe. Vlen të përmendet se DeepSeek V4 është shumë më i përballueshëm se çdo model tjetër i disponueshëm sot. Modeli më i vogël V4 Flash kushton 0.14 dollarë për milion tokena hyrëse dhe 0.28 dollarë për milion tokena dalëse, duke qenë më i lirë se GPT-5.4 Nano, Gemini 3.1 Flash, GPT-5.4 Mini dhe Claude Haiku 4.5.

Ndërkohë, modeli më i madh V4 Pro kushton 0.145 dollarë për milion tokena hyrëse dhe 3.48 dollarë për milion tokena dalëse, duke qenë gjithashtu më i lirë se Gemini 3.1 Pro, GPT-5.5, Claude Opus 4.7 dhe GPT-5.4. Lëshimi vjen një ditë pasi SHBA-të akuzuan Kinën për vjedhjen e IP-së së laboratorëve amerikanë të IA-së në një shkallë industriale duke përdorur mijëra llogari proxy.

Vetë DeepSeek është akuzuar nga Anthropic dhe OpenAI për “distilim”, në thelb kopjim të modeleve të tyre të inteligjencës artificiale.

What's Hot

Strategjia e Amazon për Silicon: Meta nënshkruan një marrëveshje historike për çipat AWS Graviton.

DeepSeek prezanton modelin e ri të IA-së që ‘mbyll boshllëkun’ me modelet e nivelit të lartë

Global Banking Crisis Fears and Slowdown Approaching in 2024

The Cut Article Sparks Outrage Over Writer’s Neglect of Her Cat

Back to School 2024 Amid a COVID Surge: Latest Symptoms and Guidelines

9 Museums & Other Exhibitions to Visit on International Museum Day 2024

14 Stunning Beach House Rentals That’ll Make You Want to Relocate

What is Grey Divorce and Its Possible Implications? Know Everything Here

2024: Better Modelling Initiative Aims to Improve UK Flood Resilience | Institute for the Environment

Birmingham to Host World’s Largest Transport Technology Conference and Exhibition

Photography Competition Captures Beauty of the UK’s National Parks

Police Insist Officers Will Still be On Streets Despite Station Closure

Strategjia e Amazon për Silicon: Meta nënshkruan një marrëveshje historike për çipat AWS Graviton.