Episode 19
Александър Ангелов и Симеон Мартев (Scrapy и Elastic)
6 April 2023
2 hrs 42 mins 4 secs
Season 2
About this Episode
В епизода Владо и Стефан обсъждат последните новини около големите езикови модели (въздъх) и философстват дали това е истински изкуствен интелект или е просто зомби папагал. Това е само прелюдия към същинската част на епизода, а именно разговор за Scrapy (технология за събиране на данни от отворени източници на информация - сайтове) и Elastic (технология за индексиране на големи масиви от текст и неговото филтриране). Плот туист, и двете технологии са много полезни, ако искате да си правите сами големи езикови модели, но не искате да ползвате наличните набори от данни за трениране, а искате да комбинирате с нещо ваше.
В епизода покриваме:
- как се пишат правилата и скриптовете за извличане на данни от отворени източници;
- как се управляват опашки за агрегиране на данни от хиляди източници. Малко чепкаме и AirFlow;
- библиотеки за автоматизация на извличането на дейта поинти;
- технологии за индексация на големи масиви данни (Logstash);
- силни и слаби страни на Elastic.
Още връзки:
- Scrapy // https://scrapy.org
- Elastic // https://www.elastic.co
- Elastic vs Amazon licensing drama // https://www.elastic.co/blog/why-license-change-aws
- Zyte / scrapy extract summit // https://www.extractsummit.io
- Apache Airflow // https://airflow.apache.org
- Какво е дуплекс // https://en.wikipedia.org/wiki/Party_line_(telephony)