===== Mesterséges Intelligencia ===== ===== Neurális hálók ===== ==== Biológiai és mesterséges neuron ==== {{:digitalis_technologiak_ikt_technologiak:pasted:20241118-121538.png?300}} A kép két fontos koncepciót ábrázol: a **biológiai neuront** és annak mesterséges intelligencia modellekben használt analógját. A //biológiai neuron// az emberi agy alapvető építőeleme, amely információkat dolgoz fel és továbbít más neuronok felé. A neuron **dendritekkel** rendelkezik, amelyek a környező neuronoktól érkező jeleket fogadják. Ezeket a jeleket a sejttest (amelyben a **mag** található) dolgozza fel, majd továbbküldi az **axonon** keresztül. Az axon végén található axonvégződések **szinapszisokon** keresztül kapcsolódnak más neuronokhoz, így biztosítva az információáramlást. A **mesterséges neuron** e biológiai modell alapján működik, leegyszerűsítve annak alapvető mechanizmusait. A mesterséges neuron bemeneteket fogad, amelyeket matematikailag súlyoz (ezzel vezérli a bemenet fontosságát), majd összegez. Az így kapott értéken egy **aktivációs függvény**t futtat, amely meghatározza, hogy a neuron "tüzel-e", azaz továbbküldi-e a jelet. Az aktivációs függvény eredménye képezi a neuron kimenetét, amelyet továbbít a hálózat következő rétegeinek. ==== Neurális háló ==== Az alábbi kép egy mesterséges neurális hálózat egyszerű modelljét ábrázolja. {{:digitalis_technologiak_ikt_technologiak:pasted:20241118-145542.png?400 }} A hálózat bemeneti réteggel indul, amely a zöld színű **x₁** és **x₂** elemeket tartalmazza. Ezek a bemeneti változók képviselik azokat az adatokat, amelyeket a modell feldolgoz. A bemeneteket súlyokkal és eltolásokkal kombinálják, majd átadják a rejtett rétegek neuronjaiba, amelyeket a kék színű **z₁**, **z₂** és **z₃** jelöl. A //rejtett réteg(ek)ben// minden neuron kiszámítja a saját kimenetét egy **aktivációs függvény** segítségével, amely a bemeneti jelek összegét alakítja át (nemlineáris módon). Ezek a kimenetek aztán tovább haladnak a következő rétegekbe, míg végül elérik a kimeneti réteget, amelyet itt az **y_pred** narancssárga elem jelöl. Az **y_pred** a modell végső előrejelzése, egy számérték, amely például egy //osztályozási// vagy //regressziós// (közelítési) probléma megoldásaként jelenik meg. Ez az ábra segíthet megérteni a neurális hálózatok alapvető működési elvét: a bemenetek fokozatos átalakulását a különböző rétegeken keresztül, amelyek végül egy adott kimeneti értékhez vezetnek. Ezt a folyamatot a gépi tanulás során finoman hangolják (optimalizálják), például //visszaterjesztés// (backpropagation) és //gradienscsökkentés// (gradient descent) segítségével, hogy a modell pontos előrejelzéseket tudjon adni. {{:digitalis_technologiak_ikt_technologiak:pasted:20241118-190513.png?600 }} {{ :digitalis_technologiak_ikt_technologiak:pasted:20241118-190801.png?600}} ==== Neurális háló, mint osztályozó - Generatív hálók ==== Az alábbi link a számok felismerését teszi láthatóvá: https://adamharley.com/nn_vis/ Az alábbi linken bemutatjuk, hogyan működik az osztályozás? Autoencoder és generatív modellek. http://showroom.iit.uni-miskolc.hu/gans ==== Generatív nyelvi modellek ==== A generatív nyelvi modellek az emberi nyelv megértésére és szöveg generálására irányuló kutatások központi elemei. Ezek a modellek arra képesek, hogy a bemenetként adott szöveg alapján értelmes és összefüggő szöveget állítsanak elő. Az alábbiakban bemutatjuk a generatív nyelvi modellek fejlődését, amely a GPT (Generative Pre-trained Transformer) családhoz vezetett. === 1.) Hagyományos megközelítések (1950-2000-es évek) === * **Statikus modellek**: A nyelv feldolgozásához egyszerű szabályalapú rendszereket (pl. grammatikai szabályok) használtak. * **Markov-láncok**: Egy szó valószínűségét csak az előző szavak határozták meg, így a kontextus figyelembevétele korlátozott volt. Hiányosságok: A modellek nem tudták kezelni a hosszabb távú összefüggéseket. Az adatok mennyisége és feldolgozási kapacitás limitált volt. === 2.) Neurális hálózatok alkalamazása (2010 körül) === **Word Embeddingek**: **Word2Vec** (2013): Az egyes szavak vektortérbeli reprezentációját hozta létre, amely tükrözi a szemantikai kapcsolataikat (king - man + woman ≈ queen). **Recurrent Neural Networks (RNNs)** Az RNN-ek a szekvenciális adatok feldolgozására készültek. Például egy szó vektora a korábbi szavak kontextusán alapult. Hiányosságok: Lassúak és nehezen tanulhatók nagy mennyiségű adat esetén. Nem tudtak hatékonyan kezelni nagyon hosszú szövegeket. === 3.) Attention Mechanizmus és Transformer (2017) === **Attention Mechanizmus**: A figyelem-alapú modellek a bemenetek bizonyos részeire nagyobb súlyt helyeztek, ezáltal hatékonyabbá tették az összefüggések felismerését. **Transformer Architektúra (2017)**: Az „Attention is All You Need” című cikkben a Google kutatói bevezették a Transformer modellt. Kulcseleme az önfigyelem (self-attention), amely lehetővé tette, hogy a modell párhuzamosan dolgozza fel az adatokat, szemben az RNN-ek szekvenciális feldolgozásával. Előnyök: Jobb skálázódás nagyobb adathalmazokon. Hatékony hosszú szövegek feldolgozása. === 4. Generatív Pre-Trained Modellek (GPT család) === **GPT-1 (2018)**: Az első modell, amely a Transformer architektúrát alkalmazta nagyméretű nyelvi korpuszokon. **GPT-2 (2019)**: Nagyobb és erősebb modell, amely képes volt teljes cikkeket generálni emberi beavatkozás nélkül. **GPT-3 (2022)**: Egy óriási ugrás: 175 milliárd paraméter. **GPT-4 (2023)**: Még fejlettebb modell, több multimodális képességgel (pl. szöveg és kép feldolgozása). Számlafeldolgozó minta bemutatása. === RAG technika === ... === Neurális hálózatok, felmerülő kérdések ==== - Magyarázható-e a működése? (a súlyok alapján érthető-e a döntés?) - Van-e itt intelligencia egyáltalán?