Barion Pixel

Mit tanulhat Európa a kínai DeepSeek AI gyors sikeréből?

A kínai Hangcsouban működő DeepSeek mesterségesintelligencia-fejlesztő vállalat új alapokra helyezte az AI-modellezést, és ezzel nemcsak az amerikai riválisokat állította kihívás elé, hanem fontos tanulságokat is tartogat az európai ipar számára is. A ChatGPT felhasználói interfészét lekoppintó DeepSeek két AI-keretrendszert fejlesztett ki, amelyek a nagy nyelvi modellek (LLM-ek) területén már most versenyképesek az OpenAI, a Google és más vezető szereplők megoldásaival – mindezt lényegesen kisebb számítási kapacitással.

A siker kulcsa: alacsony költségek, nagy hatékonyság

A DeepSeek a megerősítéses tanulást (reinforcement learning) felhasználva fejlesztette ki a keretrendszereit, amelyek jobb érvelési képességekkel bírnak. Azzal pedig, hogy nyílt forráskódúvá tette a technológiáját, máris negatív hatással volt az amerikai AI-vállalatok részvényárfolyamaira, amelyek a chatbot-szolgáltatásokért díjat számítanak fel – emlékeztet az eeNews.

- Hirdetés -

A kínai vállalat akár 70 milliárd paraméteres LLM-eket is futtat alacsonyabb teljesítményű Nvidia H100 GPU-kon, amelyeket az USA exportkorlátozásai miatt kénytelen használni. Bár ezek nem csúcskategóriás chipek, a DeepSeek így is 50 ezer darabot tudott beszerezni belőlük, hogy támogassa a modelljeit.

„A DeepSeek nem az első példa arra, hogy egy tehetségekkel teli csapat versenyre kelhet a vezető, legjobban finanszírozott AI-cégekkel” – mondta Walter Goodwin, a brit Fractile AI startup vezérigazgatója. „Európa is bővelkedik tehetségekben, és kevésbé függ a számítási kapacitásoktól, mint Kína, ezért a DeepSeek példája figyelmeztetés, hogy Európának is van helye az AI-fejlesztés élvonalában.”

A nyílt forrás ereje és az inference költségei

A nyílt forráskódú megközelítés nemcsak a versenytársakra, hanem a programozók mindennapjaira is hatással van. A WiMi Hologram Cloud például már fejleszti azt az intelligens programozási eszközt, amely a DeepSeek technológiájára épülve automatikusan tud kódokat kiegészíteni, elemezni, optimalizálni és ezzel növelni a hatékonyságot.

„Bár a DeepSeek hihetetlenül alacsony költséggel képezte modelljeit, az inference, azaz a modell használatának költségei nem csökkentek drasztikusan. Ez egy új trendet jelez: a tréning költsége marginálissá válik az inference költségeihez képest” – figyelmeztet Goodwin.

Nigel Toon, a brit AI-chiptervező GraphCore ügyvezetője is kiemelte a DeepSeek jelentőségét, ami szerinte „jó példa arra, hogy hogyan lehet a megerősítéses tanulást és a diverz szakértői modelleket kombinálva áttörő eredményeket elérni. Miközben a legtöbb kutató a méret növelésére koncentrált, a kínai csapat megmutatta, hogy a szükség az innováció motorja lehet.”

A DeepSeek chatalkalmazása az elérhetővé tételétől számított első három napban már 2,6 millió letöltést ért el, de a regisztrációkat egy kibertámadás miatt ideiglenesen szüneteltetni kényszerültek. Utóbbi beavatkozás jól mutatja, hogy a mesterséges intelligencia globális versenyében nemcsak a technológiai, hanem a biztonsági kérdések is kiemelt jelentőséget kapnak.

Gábor János, NEW technology

- Hirdetés -

- Hirdetés -

- Hirdetés -

Érdemes elolvasni
NEW technology