Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»5
Тут уже выкладывали ответ от DeepSeek'а, но я тоже выложу. Для начала я выложил код, чтобы ИИ оценил его. Оценка была сдержанной. Но когда я предоставил ему текст поста автора, ИИ был крайне возмущён:
Давайте разберемся с заявлениями автора и их обоснованностью.
1. Противоречие с теоремой Шеннона
Автор утверждает, что его метод «обходит» предел Шеннона за счет многоуровневого словаря. Однако это невозможно. Теорема Шеннона гласит:
Любой алгоритм сжатия без потерь не может сжать данные до размера меньше их энтропии.
Многоуровневый словарь не уменьшает энтропию данных — он лишь перераспределяет информацию. Даже если использовать 900 ГБ для хранения паттернов, это не влияет на энтропию исходных данных.
Пример:
Допустим, файл содержит случайные биты (энтропия = 1 бит/бит).
Словарь будет бесполезен, так как паттерны не повторяются.
Сжатый файл не станет меньше, а накладные расходы (хеши, метаданные) увеличат его размер.
2. Миф о «рекурсивном сжатии»
Автор предлагает сжимать данные многократно:
«Добавить рекурсию после сжатия для нового сжатия».
Это бессмысленно для алгоритмов общего назначения. Повторное применение сжатия к уже сжатым данным:
Не уменьшает размер (данные приближаются к энтропийному пределу после первого сжатия).
Может увеличить размер из-за накладных расходов (например, заголовков RAR/ZIP).
Почему видео «сжимается»?
Видеокодек (например, H.264) уже удаляет избыточность.
Если автор сжимает выход видеокодека, его алгоритм может случайно преобразовать биты в более «упаковываемую» форму для RAR. Это частный случай, а не универсальное решение.
3. Ошибки в расчетах автора
Автор пишет:
«Уровень 3: 4 294 967 296 пар × 8 байт/пара = ~900 ГБ».
Проверим:
4.3 млрд пар × 8 байт = 34.4 ГБ, а не 900 ГБ.
Чтобы получить 900 ГБ, нужно 112.5 млрд пар (ошибка в 26 раз!).
Откуда взялась цифра 900 ГБ? Вероятно, автор не понимает, как работает его же алгоритм.
4. Подмена понятий: словарь vs. данные
Автор утверждает:
«Сжатый файл — это ссылки на словарь. Если поместить его в RAR, размер уменьшится в 10-20 раз».
Это не сжатие, а перенос информации в словарь. Размер данных не исчезает — он перераспределяется:
Сжатый файл: 30 КБ (ссылки на словарь).
Словарь: 900 ГБ (реальные данные).
Итоговый объем информации: 30 КБ + 900 ГБ = 900.00003 ГБ — что больше исходных 4 МБ. Это не сжатие, а обман.
5. Практическая проверка
Чтобы убедиться в работоспособности метода, проведите тесты:
a) Сжатие случайных данных:
bash
Copy
# Создать файл со случайными данными
dd if=/dev/urandom of=random.bin bs=1M count=100
# Попытка сжатия через программу автора
python compressor.py random.bin compressed.ctxt
# Проверить размер
ls -lh compressed.ctxt
Ожидаемый результат: Размер compressed.ctxt будет близок к исходному или больше.
b) Проверка энтропии:
bash
Copy
# Установить утилиту ent
sudo apt install ent
# Измерить энтропию исходного файла
ent random.bin
# Измерить энтропию сжатого файла
ent compressed.ctxt
Если энтропия не снизилась, «сжатие» фиктивно.
6. Почему код «ломается» при попытках улучшения?
Автор пишет:
«Любая попытка ИИ улучшить код ломает его».
Скорее всего, алгоритм содержит скрытые зависимости или хрупкие эвристики, не описанные в документации. Например:
Жесткая привязка к порядку обработки битов.
Неучтенные коллизии хешей.
Ошибки в работе с выравниванием данных (padding).
7. Реальные пути улучшения
Если цель — создать эффективный компрессор:
Использовать LZ77 + Huffman (как в DEFLATE/ZIP).
Добавить предсказание контекста (PAQ, ZPAQ).
Применить векторные инструкции (AVX) для ускорения.
Пример кода на C++ для сжатия LZ77:
cpp
Copy
#include <iostream>
#include <vector>
#include <unordered_map>
void lz77_compress(const std::vector<uint8_t>& input, std::vector<uint8_t>& output) {
size_t pos = 0;
while (pos < input.size()) {
// Поиск совпадений в скользящем окне
size_t best_match = 0;
size_t best_len = 0;
// ... (реализация поиска)
if (best_len > 2) {
output.push_back(0xFF); // Маркер совпадения
output.push_back(best_match >> 8);
output.push_back(best_match & 0xFF);
output.push_back(best_len);
pos += best_len;
} else {
output.push_back(input[pos++]);
}
}
}
Итог
Авторский метод нарушает законы теории информации и не работает для произвольных данных.
Результаты сжатия видео — частный случай, не доказывающий эффективность.
Утверждения о 900 ГБ основаны на ошибочных расчетах.
Рекомендация: Использовать проверенные алгоритмы (Zstandard, Brotli) вместо псевдонаучных методов.
Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»5
Идея огонь! Только можно еще доработать. Закидываю идею оптимизации алгоритма (если что, не забудь про авторские отчисления!):
А что если в словарь мы сразу файлы писать будем? Если за базу возьмем машинное слово - то это 8 байт, которые гарантированно будут без проблем и молниеносно распаковываться в нужный файл любого размера!!!
Думаешь, мало 8 байт? Ну, это же 2.147.483.648 * 2.147.483.648 - это 2 миллиарда с копейками В КВАДРАТЕ! Думаю, во всем мире не наберется столько файлов, чтобы это стало проблемой. Как 8 байт не хватит, хрен с ним, увеличим до 16, причем без потери обратной совместимости! Просто архивы с ведущими нулями будут ходить в словарь.v1, а без - в v2. И алгоритм тривиальный! И расширяемость - огого. Буквально можно раз написать, а потом по надобности разрядность увеличивать. Думаю, 64 байт не достигнем в течение продолжительности жизни Вселенной!
Да, размер словаря придется несколько увеличить, зато сколько выгоды! Ну сам подумай:
1. Архив всегда фиксированного размера - 8 байт.
2. Очень простой алгоритм!
3. Очень просто расширяемый алгоритм! Для расширения просто чиселку в одном файле увеличить - и дело в шляпе!
4. Возможность реализации работы поверх сети. http/s3/fuse/whatever практически из коробки с реализацией силами полутора землекопов в течение светового дня!
5. Возможность шаринга файлов простыми урлами вида http://localhost/archiver/659531
Да там пиздец перспективы открываются! Все, пошел патентовать, пока ты не успел!
Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»5
# Разбор идеи вечного сжатия данных: почему это невозможно
Давай разберёмся, как работает сжатие файлов и почему заявление о «вечном сжатии» противоречит законам математики. Представь, что у тебя есть коробка с кубиками. Если кубики повторяются, их можно заменить записками «синий кубик ×10». Это и есть сжатие. Но что, если кубики все разные?
## 1. **Основное правило: нельзя сжать несжимаемое**
Компьютерные данные — как кубики. Если они упорядочены (например, текст с повторяющимися словами), сжатие работает. Но для случайных данных (как шум в телевизоре) сжать их невозможно. Математик Клод Шеннон доказал это в 1948 году[2].
**Пример**:
- Если файл содержит строку `АААААААААА`, её можно заменить на `А×10` (сжали в 10 раз).
- Если файл — случайные символы `Р9Ф!ЦВУКЦ3`, сжать его не получится.
## 2. **Почему словарь 900 ГБ не помогает**
Автор программы говорит, что использует огромный словарь для замены данных. Но:
- **Словарь занимает 900 ГБ** — это как таскать с собой 200 смартфонов только для распаковки файлов.
- **Случайные данные нельзя «описать» словарём**. Например, как записать в словаре случайный набор цифр `10101011001`?
Даже если словарь поможет для некоторых файлов, он бесполезен для большинства реальных данных (фото, видео, зашифрованных файлов)[1][3].
## 3. **Рекурсивное сжатие — обман**
Автор утверждает, что сжатый файл можно сжимать снова и снова. Но это похоже на попытку упаковать чемодан в сам чемодан.
**Как это работает на деле**:
- Первое сжатие: файл 100 ГБ → 1 ГБ.
- Второе сжатие: добавляются метки «это был сжатый файл» → размер 1.1 ГБ.
- После 5–6 шагов размер начинает расти[3].
## 4. **Почему примеры автора вводят в заблуждение**
В статье говорится, что видео 4 МБ сжалось до 30 КБ. Это возможно только если:
- Видео было чёрным экраном (повторяющиеся пиксели).
- Автор использовал специальные данные, а не реальные.
Для обычного видео (например, с котиком) такой результат невозможен.
## 5. **Итог: вечное сжатие — миф**
- **Нарушает законы математики** (теорема Шеннона)[2].
- **Требует нереальных ресурсов** (900 ГБ словарь + 34 ГБ оперативки).
- **Работает только для «идеальных» примеров**, которые не встречаются в жизни.
Это как пытаться вместить океан в стакан. Даже если что-то получится, это будет капля, а не весь океан.
Citations:
[1] [PDF] Математические методы и алгоритмы цифровой компрессии ... https://elar.urfu.ru/bitstream/10995/524/1/urgu0112s.pdf
[2] 9.4. Теорема Шеннона-Хартли о пропускной способности канала https://siblec.ru/telekommunikatsii/teoreticheskie-osnovy-ts...
[3] Алгоритмы компрессии данных: принципы и эффективность - Habr https://habr.com/ru/companies/otus/articles/745628/
[4] Математический анализ - Википедия https://ru.wikipedia.org/wiki/Математический_анализ
[5] Сжатие данных - Википедия https://ru.wikipedia.org/wiki/Сжатие_данных
[6] Information Theory: Claude Shannon, Entropy, Redundancy, Data ... https://crackingthenutshell.org/what-is-information-part-2a-...
[7] Математический анализ работы двухступенчатого ... https://cyberleninka.ru/article/n/matematicheskiy-analiz-rab...
[8] Теорема Шеннона об источнике шифрования - Википедия https://ru.wikipedia.org/wiki/Теорема_Шеннона_об_источнике_шифрования
[9] Обзор методов сжатия данных - Compression.ru https://www.compression.ru/arctest/descript/methods.htm
[10] Анализ бесконечно малых - Википедия https://ru.wikipedia.org/wiki/Анализ_бесконечно_малых
[11] СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ... СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )
[12] Is there an algorithm for "perfect" compression? - Stack Overflow https://stackoverflow.com/questions/21220151/is-there-an-alg...
[13] [PDF] ОСНОВЫ МАТЕМАТИЧЕСКОГО АНАЛИЗА https://kpfu.ru/docs/F1293724029/ITIS0.pdf
[14] Алгоритм Шеннона — Фано - Википедия https://ru.wikipedia.org/wiki/Алгоритм_Шеннона_—_Фано
[15] Эффективное сжатие данных с помощью метода обобщенных ... https://www.dissercat.com/content/effektivnoe-szhatie-dannyk...
[16] Multi-scale information content measurement method based on ... https://jobcardsystems.com/index.php/blog/46-multi-scale-inf...
[17] Парадоксы о сжатии данных - Habr https://habr.com/ru/articles/446976/
[18] [PDF] А. П. Ульянов ОСНОВЫ МАТЕМАТИЧЕСКОГО АНАЛИЗА ... - НГУ https://www.nsu.ru/n/physics-department/departments/doc/AU-o...
[19] Алгоритмы сжатия данных - Интуит https://intuit.ru/studies/courses/648/504/lecture/11470
[20] ОГРАНИЧЕНИЯ ПРИМЕНЕНИЯ МЕТОДА НА ОСНОВЕ СЖАТИЯ ... https://cyberleninka.ru/article/n/ogranicheniya-primeneniya-...
[21] [PDF] Математический анализ https://matan.math.msu.su/media/uploads/2020/03/V.A.Zorich-K...
[22] [PDF] Методы сжатия информации: текст и изображение http://www.lib.uniyar.ac.ru/edocs/iuni/20140407.pdf
[23] Сжатие с потерями - Википедия https://ru.wikipedia.org/wiki/Сжатие_с_потерями
[24] [PDF] МАТЕМАТИЧЕСКИЙ АНАЛИЗ https://math.uchicago.edu/~eskin/math203/Analiz 1 (2012).pdf
[25] Формула Шеннона: теорема и примеры - Фоксфорд https://foxford.ru/wiki/informatika/formula-shennona
[26] Метод сжатия данных для цифровой коррекции показаний ... https://www.mathnet.ru/php/getFT.phtml?jrnid=zvmmf&paper...
[27] [PDF] Математический анализ. - СУНЦ МГУ https://internat.msu.ru/media/uploads/2014/10/Matan_Lectures...
[28] Первая теорема Шеннона http://it.kgsu.ru/TI_3/tkod_009.html
[29] Как бесконечно малые функции применяются в математическом ... https://ya.ru/neurum/c/nauka-i-obrazovanie/q/kak_beskonechno...
[30] Математический анализ. Учимся решать пределы - Дзен https://dzen.ru/a/X-p4e-CLs1IvICfv
[31] [PDF] Сжатие гиперспектральных данных методом главных компонент https://computeroptics.ru/KO/PDF/KO45-2/450210.pdf
[32] Towards Demystifying Shannon Entropy, Lossless Compression ... https://www.mdpi.com/2504-3900/47/1/24
[33] Сжатие и растяжение графика по вертикали - Фоксфорд https://foxford.ru/wiki/matematika/szhatiye-i-rastyazheniye-...
[34] Колмогоров и современная информатика - Mathnet.RU https://www.mathnet.ru/php/getFT.phtml?jrnid=mo&paperid=...
[35] [PDF] Analytic Information Theory: From Compression to Learning https://www.cs.purdue.edu/homes/spa/temp/ait22.pdf
[36] Что такое математический анализ и как он используется в IT https://blog.skillfactory.ru/chto-takoe-matematicheskiy-anal...
[37] (PDF) Towards Demystifying Shannon Entropy, Lossless ... https://www.researchgate.net/publication/342321926_Towards_D...
[38] Статистический анализ эффективности основных ... https://cyberleninka.ru/article/n/statisticheskiy-analiz-eff...
Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»5
Ну что, очередной «гений» откопал вечное сжатие? Очередная вариация на тему «Ян Слоот был прав», только теперь с «четырёхуровневым словарём» и магическими 900 ГБ, которые, видимо, превращают данные в эфирные сущности. Обычный псевдонаучный бред, основанный на непонимании основ теории информации. Шеннон, бедолага, в гробу вертится с такой скоростью, что скоро электричество в сеть начнёт выдавать.
Но давай по порядку.
900 ГБ словаря, который решает всё – звучит как «хранить Вселенную в одной молекуле». Если ты хранишь информацию о данных где-то отдельно, то это и есть данные. И никакой «четырёхуровневый словарь» тут не поможет, потому что в реальности компрессия данных без потерь ограничена энтропией.
Магия рекурсии – классическая ошибка всех мечтателей о вечном сжатии. Запаковал, распаковал, снова запаковал, и так до бесконечности? Ага, конечно. Алгоритмы сжатия всегда оставляют какую-то энтропийную границу, дальше которой информация перестаёт ужиматься.
ZIP и RAR уменьшают размер сжатого файла ещё в 10-20 раз – конечно, если твой «сжатый» файл – это просто текст с кучей повторений, любой нормальный архиватор сожмёт его. Но если бы ты действительно приближался к энтропийному пределу, то никакой ZIP не смог бы тебе помочь.
100 ГБ в 1 ГБ? – ну вот давай эксперимент: возьми произвольные 100 ГБ абсолютно случайных данных (например, архив с зашифрованными файлами) и ужми их в 1 ГБ этим «чудо-алгоритмом». Только без всякой читерской подмены данных. А потом обратно распакуй без потерь. Спойлер: не получится.
«Метод даёт возможным сингулярность и AGI» – ооо, пошли любимые слова всех, кто не понимает, как работает вычислительная техника. Любая система, основанная на сжатии данных, никак не приближает к AGI. Если ты не понимаешь, как работает сжатие, не лезь в разговоры про искусственный интеллект.
«Работает медленно, любые изменения ломают» – ну да, очень надёжный метод, который при малейшем отклонении превращается в мусор. Инженерный шедевр, не иначе.
«Я не хочу делать сервис, я хочу сингулярность» – конечно, ведь любой, кто реально что-то разрабатывает, старается сделать продукт, а не писать пафосные манифесты про распространение среди учёных.
Если бы такой алгоритм реально работал, то уже все облачные хранилища и дата-центры мира внедрили бы его, а автор катался бы на яхте, купленной за миллиарды. Но нет, вместо этого он выкладывает свой код в открытый доступ и просит всех «распространить». Ну да, звучит убедительно.
В общем, это очередная псевдонаучная фантазия, которая лопается при первом же столкновении с реальностью.
Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»5
На скриншоте словаря мы видим две секции:
1. Пара из двух чисел по одной цифре сопоставляется числу из 5 цифр. Цифры шестнадцатиричные.
Таких пар может быть 256. А пятизначных чисел 1048576. Что делать с 1048320 числами, которым нет пары для сопоставления?
2. Во второй секции ситуация обратная: паре пятизначных чисел сопоставляется одно. Триллион вариантов против миллиона и вопрос: что делать с 99.9999% которые нечему сопоставить?
2.1. это не 8 байт на пару. Пятизначное число это минимум 3 байта, а таких чисел у нас 3. Итого 9 байт. А в JSONоподобном виде со скриншота 30 байт.
ТС забыл помолиться, чтобы программист не зашел в комментарии?
UPD. 3 пятизначных числа можно рассмотреть как одно пятнадцатизначное и записать в 8 байт. Но вот разворачивать эту запись будет неудобно, трудно для понимания и долго (несколько (2, наверное) операций битового сдвига не стоят экономии 1 байта из 9). Поэтому так не делают.
Открою великую тайну всем авторам контента и админам порталов
В мире существует сейчас много способов доказать интеллектуальную собственность свою новую или компании. Самый простой способ предлагаю тебе - web.archive.org
Он действует не только в СНГ или БРИКС, как и айфоны и макбуки чиновников и депутатов РФ, которые против запада и чисто за восток врут, что изменились за 10 лет)