Episode 19

Александър Ангелов и Симеон Мартев (Scrapy и Elastic)

00:00:00
/
02:42:04

6 April 2023

2 hrs 42 mins 4 secs

Season 2

Your Hosts
Special Guests

About this Episode

В епизода Владо и Стефан обсъждат последните новини около големите езикови модели (въздъх) и философстват дали това е истински изкуствен интелект или е просто зомби папагал. Това е само прелюдия към същинската част на епизода, а именно разговор за Scrapy (технология за събиране на данни от отворени източници на информация - сайтове) и Elastic (технология за индексиране на големи масиви от текст и неговото филтриране). Плот туист, и двете технологии са много полезни, ако искате да си правите сами големи езикови модели, но не искате да ползвате наличните набори от данни за трениране, а искате да комбинирате с нещо ваше.

В епизода покриваме:

  • как се пишат правилата и скриптовете за извличане на данни от отворени източници;
  • как се управляват опашки за агрегиране на данни от хиляди източници. Малко чепкаме и AirFlow;
  • библиотеки за автоматизация на извличането на дейта поинти;
  • технологии за индексация на големи масиви данни (Logstash);
  • силни и слаби страни на Elastic.

Още връзки: