Архивация: истории из жизни, советы, новости, юмор и картинки — Горячее

Тут уже выкладывали ответ от DeepSeek'а, но я тоже выложу. Для начала я выложил код, чтобы ИИ оценил его. Оценка была сдержанной. Но когда я предоставил ему текст поста автора, ИИ был крайне возмущён:

Давайте разберемся с заявлениями автора и их обоснованностью.

1. Противоречие с теоремой Шеннона

Автор утверждает, что его метод «обходит» предел Шеннона за счет многоуровневого словаря. Однако это невозможно. Теорема Шеннона гласит:

Любой алгоритм сжатия без потерь не может сжать данные до размера меньше их энтропии.

Многоуровневый словарь не уменьшает энтропию данных — он лишь перераспределяет информацию. Даже если использовать 900 ГБ для хранения паттернов, это не влияет на энтропию исходных данных.

Пример:

Допустим, файл содержит случайные биты (энтропия = 1 бит/бит).

Словарь будет бесполезен, так как паттерны не повторяются.

Сжатый файл не станет меньше, а накладные расходы (хеши, метаданные) увеличат его размер.

2. Миф о «рекурсивном сжатии»

Автор предлагает сжимать данные многократно:

«Добавить рекурсию после сжатия для нового сжатия».

Это бессмысленно для алгоритмов общего назначения. Повторное применение сжатия к уже сжатым данным:

Не уменьшает размер (данные приближаются к энтропийному пределу после первого сжатия).

Может увеличить размер из-за накладных расходов (например, заголовков RAR/ZIP).

Почему видео «сжимается»?

Видеокодек (например, H.264) уже удаляет избыточность.

Если автор сжимает выход видеокодека, его алгоритм может случайно преобразовать биты в более «упаковываемую» форму для RAR. Это частный случай, а не универсальное решение.

3. Ошибки в расчетах автора

Автор пишет:

«Уровень 3: 4 294 967 296 пар × 8 байт/пара = ~900 ГБ».

Проверим:

4.3 млрд пар × 8 байт = 34.4 ГБ, а не 900 ГБ.

Чтобы получить 900 ГБ, нужно 112.5 млрд пар (ошибка в 26 раз!).

Откуда взялась цифра 900 ГБ? Вероятно, автор не понимает, как работает его же алгоритм.

4. Подмена понятий: словарь vs. данные

Автор утверждает:

«Сжатый файл — это ссылки на словарь. Если поместить его в RAR, размер уменьшится в 10-20 раз».

Это не сжатие, а перенос информации в словарь. Размер данных не исчезает — он перераспределяется:

Сжатый файл: 30 КБ (ссылки на словарь).

Словарь: 900 ГБ (реальные данные).

Итоговый объем информации: 30 КБ + 900 ГБ = 900.00003 ГБ — что больше исходных 4 МБ. Это не сжатие, а обман.

5. Практическая проверка

Чтобы убедиться в работоспособности метода, проведите тесты:

a) Сжатие случайных данных:

bash

Copy

# Создать файл со случайными данными

dd if=/dev/urandom of=random.bin bs=1M count=100

# Попытка сжатия через программу автора

python compressor.py random.bin compressed.ctxt

# Проверить размер

ls -lh compressed.ctxt

Ожидаемый результат: Размер compressed.ctxt будет близок к исходному или больше.

b) Проверка энтропии:

bash

Copy

# Установить утилиту ent

sudo apt install ent

# Измерить энтропию исходного файла

ent random.bin

# Измерить энтропию сжатого файла

ent compressed.ctxt

Если энтропия не снизилась, «сжатие» фиктивно.

6. Почему код «ломается» при попытках улучшения?

Автор пишет:

«Любая попытка ИИ улучшить код ломает его».

Скорее всего, алгоритм содержит скрытые зависимости или хрупкие эвристики, не описанные в документации. Например:

Жесткая привязка к порядку обработки битов.

Неучтенные коллизии хешей.

Ошибки в работе с выравниванием данных (padding).

7. Реальные пути улучшения

Если цель — создать эффективный компрессор:

Использовать LZ77 + Huffman (как в DEFLATE/ZIP).

Добавить предсказание контекста (PAQ, ZPAQ).

Применить векторные инструкции (AVX) для ускорения.

Пример кода на C++ для сжатия LZ77:

cpp

Copy

#include <iostream>

#include <vector>

#include <unordered_map>

void lz77_compress(const std::vector<uint8_t>& input, std::vector<uint8_t>& output) {

size_t pos = 0;

while (pos < input.size()) {

// Поиск совпадений в скользящем окне

size_t best_match = 0;

size_t best_len = 0;

// ... (реализация поиска)

if (best_len > 2) {

output.push_back(0xFF); // Маркер совпадения

output.push_back(best_match >> 8);

output.push_back(best_match & 0xFF);

output.push_back(best_len);

pos += best_len;

} else {

output.push_back(input[pos++]);

}

Итог

Авторский метод нарушает законы теории информации и не работает для произвольных данных.

Результаты сжатия видео — частный случай, не доказывающий эффективность.

Утверждения о 900 ГБ основаны на ошибочных расчетах.

Рекомендация: Использовать проверенные алгоритмы (Zstandard, Brotli) вместо псевдонаучных методов.

Показать полностью

Информатика Программирование Архивация Компьютер Сингулярность Agi Нейронные сети Windows Linux Длиннопост Волна постов Ответ на пост Текст

23

13

cherryKot

5 месяцев назад

Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»⁠⁠5

Идея огонь! Только можно еще доработать. Закидываю идею оптимизации алгоритма (если что, не забудь про авторские отчисления!):

А что если в словарь мы сразу файлы писать будем? Если за базу возьмем машинное слово - то это 8 байт, которые гарантированно будут без проблем и молниеносно распаковываться в нужный файл любого размера!!!

Думаешь, мало 8 байт? Ну, это же 2.147.483.648 * 2.147.483.648 - это 2 миллиарда с копейками В КВАДРАТЕ! Думаю, во всем мире не наберется столько файлов, чтобы это стало проблемой. Как 8 байт не хватит, хрен с ним, увеличим до 16, причем без потери обратной совместимости! Просто архивы с ведущими нулями будут ходить в словарь.v1, а без - в v2. И алгоритм тривиальный! И расширяемость - огого. Буквально можно раз написать, а потом по надобности разрядность увеличивать. Думаю, 64 байт не достигнем в течение продолжительности жизни Вселенной!

Да, размер словаря придется несколько увеличить, зато сколько выгоды! Ну сам подумай:

1. Архив всегда фиксированного размера - 8 байт.

2. Очень простой алгоритм!

3. Очень просто расширяемый алгоритм! Для расширения просто чиселку в одном файле увеличить - и дело в шляпе!

4. Возможность реализации работы поверх сети. http/s3/fuse/whatever практически из коробки с реализацией силами полутора землекопов в течение светового дня!

5. Возможность шаринга файлов простыми урлами вида http://localhost/archiver/659531

Да там пиздец перспективы открываются! Все, пошел патентовать, пока ты не успел!

Информатика Программирование Архивация Компьютер Сингулярность Agi Нейронные сети Windows Linux Длиннопост Мат Ответ на пост Текст Волна постов

15

103

user10356057

5 месяцев назад

Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»⁠⁠5

# Разбор идеи вечного сжатия данных: почему это невозможно

Давай разберёмся, как работает сжатие файлов и почему заявление о «вечном сжатии» противоречит законам математики. Представь, что у тебя есть коробка с кубиками. Если кубики повторяются, их можно заменить записками «синий кубик ×10». Это и есть сжатие. Но что, если кубики все разные?

## 1. **Основное правило: нельзя сжать несжимаемое**

Компьютерные данные — как кубики. Если они упорядочены (например, текст с повторяющимися словами), сжатие работает. Но для случайных данных (как шум в телевизоре) сжать их невозможно. Математик Клод Шеннон доказал это в 1948 году[2].

**Пример**:

- Если файл содержит строку `АААААААААА`, её можно заменить на `А×10` (сжали в 10 раз).

- Если файл — случайные символы `Р9Ф!ЦВУКЦ3`, сжать его не получится.

## 2. **Почему словарь 900 ГБ не помогает**

Автор программы говорит, что использует огромный словарь для замены данных. Но:

- **Словарь занимает 900 ГБ** — это как таскать с собой 200 смартфонов только для распаковки файлов.

- **Случайные данные нельзя «описать» словарём**. Например, как записать в словаре случайный набор цифр `10101011001`?

Даже если словарь поможет для некоторых файлов, он бесполезен для большинства реальных данных (фото, видео, зашифрованных файлов)[1][3].

## 3. **Рекурсивное сжатие — обман**

Автор утверждает, что сжатый файл можно сжимать снова и снова. Но это похоже на попытку упаковать чемодан в сам чемодан.

**Как это работает на деле**:

- Первое сжатие: файл 100 ГБ → 1 ГБ.

- Второе сжатие: добавляются метки «это был сжатый файл» → размер 1.1 ГБ.

- После 5–6 шагов размер начинает расти[3].

## 4. **Почему примеры автора вводят в заблуждение**

В статье говорится, что видео 4 МБ сжалось до 30 КБ. Это возможно только если:

- Видео было чёрным экраном (повторяющиеся пиксели).

- Автор использовал специальные данные, а не реальные.

Для обычного видео (например, с котиком) такой результат невозможен.

## 5. **Итог: вечное сжатие — миф**

- **Нарушает законы математики** (теорема Шеннона)[2].

- **Требует нереальных ресурсов** (900 ГБ словарь + 34 ГБ оперативки).

- **Работает только для «идеальных» примеров**, которые не встречаются в жизни.

Это как пытаться вместить океан в стакан. Даже если что-то получится, это будет капля, а не весь океан.

Citations:

[1] [PDF] Математические методы и алгоритмы цифровой компрессии ... https://elar.urfu.ru/bitstream/10995/524/1/urgu0112s.pdf

[2] 9.4. Теорема Шеннона-Хартли о пропускной способности канала https://siblec.ru/telekommunikatsii/teoreticheskie-osnovy-ts...

[3] Алгоритмы компрессии данных: принципы и эффективность - Habr https://habr.com/ru/companies/otus/articles/745628/

[4] Математический анализ - Википедия https://ru.wikipedia.org/wiki/Математический_анализ

[5] Сжатие данных - Википедия https://ru.wikipedia.org/wiki/Сжатие_данных

[6] Information Theory: Claude Shannon, Entropy, Redundancy, Data ... https://crackingthenutshell.org/what-is-information-part-2a-...

[7] Математический анализ работы двухступенчатого ... https://cyberleninka.ru/article/n/matematicheskiy-analiz-rab...

[8] Теорема Шеннона об источнике шифрования - Википедия https://ru.wikipedia.org/wiki/Теорема_Шеннона_об_источнике_шифрования

[9] Обзор методов сжатия данных - Compression.ru https://www.compression.ru/arctest/descript/methods.htm

[10] Анализ бесконечно малых - Википедия https://ru.wikipedia.org/wiki/Анализ_бесконечно_малых

[11] СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ... СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )

[12] Is there an algorithm for "perfect" compression? - Stack Overflow https://stackoverflow.com/questions/21220151/is-there-an-alg...

[13] [PDF] ОСНОВЫ МАТЕМАТИЧЕСКОГО АНАЛИЗА https://kpfu.ru/docs/F1293724029/ITIS0.pdf

[14] Алгоритм Шеннона — Фано - Википедия https://ru.wikipedia.org/wiki/Алгоритм_Шеннона_—_Фано

[15] Эффективное сжатие данных с помощью метода обобщенных ... https://www.dissercat.com/content/effektivnoe-szhatie-dannyk...

[16] Multi-scale information content measurement method based on ... https://jobcardsystems.com/index.php/blog/46-multi-scale-inf...

[17] Парадоксы о сжатии данных - Habr https://habr.com/ru/articles/446976/

[18] [PDF] А. П. Ульянов ОСНОВЫ МАТЕМАТИЧЕСКОГО АНАЛИЗА ... - НГУ https://www.nsu.ru/n/physics-department/departments/doc/AU-o...

[19] Алгоритмы сжатия данных - Интуит https://intuit.ru/studies/courses/648/504/lecture/11470

[20] ОГРАНИЧЕНИЯ ПРИМЕНЕНИЯ МЕТОДА НА ОСНОВЕ СЖАТИЯ ... https://cyberleninka.ru/article/n/ogranicheniya-primeneniya-...

[21] [PDF] Математический анализ https://matan.math.msu.su/media/uploads/2020/03/V.A.Zorich-K...

[22] [PDF] Методы сжатия информации: текст и изображение http://www.lib.uniyar.ac.ru/edocs/iuni/20140407.pdf

[23] Сжатие с потерями - Википедия https://ru.wikipedia.org/wiki/Сжатие_с_потерями

[24] [PDF] МАТЕМАТИЧЕСКИЙ АНАЛИЗ https://math.uchicago.edu/~eskin/math203/Analiz 1 (2012).pdf

[25] Формула Шеннона: теорема и примеры - Фоксфорд https://foxford.ru/wiki/informatika/formula-shennona

[26] Метод сжатия данных для цифровой коррекции показаний ... https://www.mathnet.ru/php/getFT.phtml?jrnid=zvmmf&paper...

[27] [PDF] Математический анализ. - СУНЦ МГУ https://internat.msu.ru/media/uploads/2014/10/Matan_Lectures...

[28] Первая теорема Шеннона http://it.kgsu.ru/TI_3/tkod_009.html

[29] Как бесконечно малые функции применяются в математическом ... https://ya.ru/neurum/c/nauka-i-obrazovanie/q/kak_beskonechno...

[30] Математический анализ. Учимся решать пределы - Дзен https://dzen.ru/a/X-p4e-CLs1IvICfv

[31] [PDF] Сжатие гиперспектральных данных методом главных компонент https://computeroptics.ru/KO/PDF/KO45-2/450210.pdf

[32] Towards Demystifying Shannon Entropy, Lossless Compression ... https://www.mdpi.com/2504-3900/47/1/24

[33] Сжатие и растяжение графика по вертикали - Фоксфорд https://foxford.ru/wiki/matematika/szhatiye-i-rastyazheniye-...

[34] Колмогоров и современная информатика - Mathnet.RU https://www.mathnet.ru/php/getFT.phtml?jrnid=mo&paperid=...

[35] [PDF] Analytic Information Theory: From Compression to Learning https://www.cs.purdue.edu/homes/spa/temp/ait22.pdf

[36] Что такое математический анализ и как он используется в IT https://blog.skillfactory.ru/chto-takoe-matematicheskiy-anal...

[37] (PDF) Towards Demystifying Shannon Entropy, Lossless ... https://www.researchgate.net/publication/342321926_Towards_D...

[38] Статистический анализ эффективности основных ... https://cyberleninka.ru/article/n/statisticheskiy-analiz-eff...

Показать полностью

Информатика Программирование Архивация Компьютер Сингулярность Agi Нейронные сети Windows Linux Длиннопост Ответ на пост Текст Яндекс Дзен (ссылка) Волна постов

80

160

user10354842

5 месяцев назад

Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»⁠⁠5

Ну что, очередной «гений» откопал вечное сжатие? Очередная вариация на тему «Ян Слоот был прав», только теперь с «четырёхуровневым словарём» и магическими 900 ГБ, которые, видимо, превращают данные в эфирные сущности. Обычный псевдонаучный бред, основанный на непонимании основ теории информации. Шеннон, бедолага, в гробу вертится с такой скоростью, что скоро электричество в сеть начнёт выдавать.

Но давай по порядку.

900 ГБ словаря, который решает всё – звучит как «хранить Вселенную в одной молекуле». Если ты хранишь информацию о данных где-то отдельно, то это и есть данные. И никакой «четырёхуровневый словарь» тут не поможет, потому что в реальности компрессия данных без потерь ограничена энтропией.

Магия рекурсии – классическая ошибка всех мечтателей о вечном сжатии. Запаковал, распаковал, снова запаковал, и так до бесконечности? Ага, конечно. Алгоритмы сжатия всегда оставляют какую-то энтропийную границу, дальше которой информация перестаёт ужиматься.

ZIP и RAR уменьшают размер сжатого файла ещё в 10-20 раз – конечно, если твой «сжатый» файл – это просто текст с кучей повторений, любой нормальный архиватор сожмёт его. Но если бы ты действительно приближался к энтропийному пределу, то никакой ZIP не смог бы тебе помочь.

100 ГБ в 1 ГБ? – ну вот давай эксперимент: возьми произвольные 100 ГБ абсолютно случайных данных (например, архив с зашифрованными файлами) и ужми их в 1 ГБ этим «чудо-алгоритмом». Только без всякой читерской подмены данных. А потом обратно распакуй без потерь. Спойлер: не получится.

«Метод даёт возможным сингулярность и AGI» – ооо, пошли любимые слова всех, кто не понимает, как работает вычислительная техника. Любая система, основанная на сжатии данных, никак не приближает к AGI. Если ты не понимаешь, как работает сжатие, не лезь в разговоры про искусственный интеллект.

«Работает медленно, любые изменения ломают» – ну да, очень надёжный метод, который при малейшем отклонении превращается в мусор. Инженерный шедевр, не иначе.

«Я не хочу делать сервис, я хочу сингулярность» – конечно, ведь любой, кто реально что-то разрабатывает, старается сделать продукт, а не писать пафосные манифесты про распространение среди учёных.

Если бы такой алгоритм реально работал, то уже все облачные хранилища и дата-центры мира внедрили бы его, а автор катался бы на яхте, купленной за миллиарды. Но нет, вместо этого он выкладывает свой код в открытый доступ и просит всех «распространить». Ну да, звучит убедительно.

В общем, это очередная псевдонаучная фантазия, которая лопается при первом же столкновении с реальностью.

Показать полностью

Информатика Программирование Архивация Компьютер Сингулярность Agi Нейронные сети Windows Linux Длиннопост Ответ на пост Текст Волна постов

61

118

user9083454

5 месяцев назад

Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»⁠⁠5

На скриншоте словаря мы видим две секции:

1. Пара из двух чисел по одной цифре сопоставляется числу из 5 цифр. Цифры шестнадцатиричные.

Таких пар может быть 256. А пятизначных чисел 1048576. Что делать с 1048320 числами, которым нет пары для сопоставления?

2. Во второй секции ситуация обратная: паре пятизначных чисел сопоставляется одно. Триллион вариантов против миллиона и вопрос: что делать с 99.9999% которые нечему сопоставить?

2.1. это не 8 байт на пару. Пятизначное число это минимум 3 байта, а таких чисел у нас 3. Итого 9 байт. А в JSONоподобном виде со скриншота 30 байт.

ТС забыл помолиться, чтобы программист не зашел в комментарии?

UPD. 3 пятизначных числа можно рассмотреть как одно пятнадцатизначное и записать в 8 байт. Но вот разворачивать эту запись будет неудобно, трудно для понимания и долго (несколько (2, наверное) операций битового сдвига не стоят экономии 1 байта из 9). Поэтому так не делают.