Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр
Веселая аркада с Печенькой для новогоднего настроения. Объезжайте препятствия, а подарки, варежки, конфеты и прочие приятности не объезжайте: они помогут набрать очки и установить новый рекорд.

Сноуборд

Спорт, Аркады, На ловкость

Играть

Топ прошлой недели

  • Rahlkan Rahlkan 1 пост
  • Tannhauser9 Tannhauser9 4 поста
  • alex.carrier alex.carrier 5 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
0 просмотренных постов скрыто
egor.leto
egor.leto
2 месяца назад
Искусственный интеллект
Серия Нейро Пушка

ГЕНЕРИМ ПОЛНОЦЕННЫЕ PDF ЗА ПАРУ КЛИКОВ⁠⁠

Grok раскатали имбу для студентов: теперь может собирать целые документы на любую тему. Доклад, курсовая или реферат — с формулами, графиками и оформлением.

Достаточно написать запрос и добавить: создай в PDF.

Работает бесплатно: https://grok.com/

Источник: 🎯 НЕЙРО-ПУШКА ● НОВОСТИ И ОБЗОРЫ НЕЙРОСЕТЕЙ

Показать полностью 3
[моё] Нейронные сети Искусственный интеллект Вертикальное видео Telegram (ссылка) Тренд Нейросеть Grok Pdf График Формула Доклад Реферат Курсовая Видео Без звука Короткие видео Длиннопост
0
3
Jelizaveta
3 месяца назад

Как извлечь текст из PDF с помощью C#⁠⁠

Извлечение текста из PDF-файлов — это распространенная задача в приложениях для обработки документов. Независимо от того, нужно ли вам получить конкретный контент, проанализировать данные или автоматизировать извлечение текста, надежная библиотека может упростить задачу. В этом посте мы рассмотрим, как использовать Free Spire.PDF for .NET, мощную библиотеку C#, для извлечения текста из PDF в различных сценариях, включая:

  • Извлечение текста с конкретной страницы

  • Извлечение текста из прямоугольной области

  • Извлечение таблиц из PDF

Бесплатная библиотека C# для извлечения текста из PDF

Free Spire.PDF for .NET — это легкая, но мощная библиотека, которая позволяет разработчикам работать с PDF-файлами в приложениях .NET. Она поддерживает различные операции с PDF, включая извлечение текста, без необходимости использования Adobe Acrobat.

Чтобы начать, установите библиотеку с помощью диспетчера пакетов NuGet в Visual Studio:

Install-Package FreeSpire.PDF

Либо найдите "FreeSpire.PDF" в диспетчере пакетов NuGet и установите ее.

Извлечение текста с конкретной страницы

Если вы хотите извлечь весь текст с конкретной страницы в PDF, Free Spire.PDF предлагает простые методы для этого. Сначала загрузите PDF-файл из заданного пути. Затем получите доступ к нужной странице и создайте объект PdfTextExtractor для управления процессом извлечения.

Используя объект PdfTextExtractOptions, вы можете настроить параметры извлечения. Установите IsExtractAllText в true, чтобы убедиться, что весь текст на странице будет захвачен. Наконец, вызовите метод ExtractText() у PdfTextExtractor, чтобы получить текст с указанной страницы.

Пример кода:

using System;

using System.IO;

using Spire.Pdf;

using Spire.Pdf.Texts;


namespace ExtractTextFromPage

{

class Program

{

static void Main(string[] args)

{

// Создаем объект PdfDocument

PdfDocument doc = new PdfDocument();


// Загружаем PDF-файл

doc.LoadFromFile(@"C:\Users\Administrator\Desktop\input.pdf");


// Получаем конкретную страницу

PdfPageBase page = doc.Pages[0];


// Создаем объект PdfTextExtractor

PdfTextExtractor textExtractor = new PdfTextExtractor(page);


// Создаем объект PdfTextExtractOptions

PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();


// Устанавливаем isExtractAllText в true

extractOptions.IsExtractAllText = true;


// Извлекаем текст со страницы

string text = textExtractor.ExtractText(extractOptions);


// Записываем в текстовый файл

File.WriteAllText("Extracted.txt", text);

}

}

}

Этот код извлекает весь текст с первой страницы PDF и сохраняет его в текстовом файле.

Извлечение текста из прямоугольной области

Иногда может понадобиться извлечь текст из определенной прямоугольной области страницы. Начните с загрузки PDF-файла и нацеливания на нужную страницу. Затем создайте PdfTextExtractor и определите область извлечения, используя объект RectangleF, указав его координаты и размеры. Наконец, вызовите метод ExtractText() у PdfTextExtractor, чтобы получить текст в определенной области.

Пример кода:

using Spire.Pdf;

using Spire.Pdf.Texts;

using System.IO;

using System.Drawing;


namespace ExtractTextFromRectangleArea

{

class Program

{

static void Main(string[] args)

{

// Создаем объект PdfDocument

PdfDocument doc = new PdfDocument();


// Загружаем PDF-файл

doc.LoadFromFile(@"C:\Users\Administrator\Desktop\input.pdf");


// Получаем конкретную страницу

PdfPageBase page = doc.Pages[1];


// Создаем объект PdfTextExtractor

PdfTextExtractor textExtractor = new PdfTextExtractor(page);


// Создаем объект PdfTextExtractOptions

PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();


// Устанавливаем область прямоугольника

extractOptions.ExtractArea = new RectangleF(0, 0, 800, 200);


// Извлекаем текст из прямоугольника

string text = textExtractor.ExtractText(extractOptions);


// Записываем в текстовый файл

File.WriteAllText("Extracted.txt", text);

}

}

}

Этот код извлекает текст только из указанного прямоугольного региона (координаты (0, 0) до (800, 200)) на второй странице.

Извлечение таблиц с конкретной страницы

Извлечение таблиц из PDF может быть сложной задачей, но Free Spire.PDF упрощает процесс с помощью класса PdfTableExtractor. Сначала инициализируйте PdfTableExtractor и используйте метод ExtractTable(), чтобы получить таблицы с первой страницы документа.

Извлеченные таблицы хранятся в массиве, который вы можете перебрать. Для каждой таблицы пройдите по ее строкам и столбцам, чтобы собрать текст из каждой ячейки. Наконец, добавьте объединенный текст в StringBuilder и сохраните его в "Table.txt".

Пример кода:

using System.IO;

using System.Text;

using Spire.Pdf;

using Spire.Pdf.Utilities;

namespace ExtractPdfTable

{

class Program

{

static void Main(string[] args)

{

// Создаем объект PdfDocument

PdfDocument doc = new PdfDocument();

// Загружаем образец PDF-файла

doc.LoadFromFile(@"C:\Users\Administrator\Desktop\input.pdf");

// Создаем объект StringBuilder

StringBuilder builder = new StringBuilder();

// Инициализируем экземпляр класса PdfTableExtractor

PdfTableExtractor extractor = new PdfTableExtractor(doc);

// Объявляем массив PdfTable

PdfTable[] tableList = null;

// Извлекаем таблицы с конкретной страницы

tableList = extractor.ExtractTable(0);

// Проверяем, не является ли список таблиц нулевым

if (tableList != null && tableList.Length > 0)

{

// Перебираем таблицы в списке

foreach (PdfTable table in tableList)

{

// Получаем количество строк и столбцов определенной таблицы

int row = table.GetRowCount();

int column = table.GetColumnCount();

// Перебираем строки и столбцы

for (int i = 0; i < row; i++)

{

for (int j = 0; j < column; j++)

{

// Получаем текст из конкретной ячейки

string text = table.GetText(i, j);

// Добавляем текст в StringBuilder

builder.Append(text + " ");

}

builder.Append("\r\n");

}

}

}


// Записываем в .txt файл

File.WriteAllText("Table.txt", builder.ToString());

}

}

}

Этот код извлекает все таблицы с первой страницы и сохраняет их в структурированном текстовом формате.

Заключение

Free Spire.PDF for .NET — отличный выбор для извлечения текста и таблиц из PDF в C#. Независимо от того, нужно ли вам извлечь целые страницы, конкретные области или структурированные таблицы, эта библиотека предлагает эффективные и простые методы.

Следуя приведенным выше примерам, вы можете легко интегрировать извлечение текста из PDF в свои приложения .NET.

Показать полностью
Pdf Csharp Текст Длиннопост
1
3
Exphusb
Exphusb
3 месяца назад
Серия Жизненно

На что НЕ начисляются бонусы сбера⁠⁠

В комментарии под моим постом пришел представитель сбера и любезно скинул ссылку на правила акции "сберспасибо".

Всего 72!!! страницы правил в формате pdf. Именно с этим предлагает ознакомиться с мобильного телефона при выборе категорий кешбека сбер. 72 страницы на компе, на экране смартфона это сколько будет?

Ну так вот, важное! То, на что ссылается сбер, при отказе начислять бонусы: А именно п.3.8-3.10 правил.

На что НЕ начисляются бонусы сбера Сервис, Приложение, Служба поддержки, Сбербанк, Правила, Деньги, Картинка с текстом, Pdf, Услуги, Приложение на Android, Сайт, Акции, Бонусы, Кэшбэк, Благотворительность, Зеленый, Длиннопост
На что НЕ начисляются бонусы сбера Сервис, Приложение, Служба поддержки, Сбербанк, Правила, Деньги, Картинка с текстом, Pdf, Услуги, Приложение на Android, Сайт, Акции, Бонусы, Кэшбэк, Благотворительность, Зеленый, Длиннопост
На что НЕ начисляются бонусы сбера Сервис, Приложение, Служба поддержки, Сбербанк, Правила, Деньги, Картинка с текстом, Pdf, Услуги, Приложение на Android, Сайт, Акции, Бонусы, Кэшбэк, Благотворительность, Зеленый, Длиннопост
На что НЕ начисляются бонусы сбера Сервис, Приложение, Служба поддержки, Сбербанк, Правила, Деньги, Картинка с текстом, Pdf, Услуги, Приложение на Android, Сайт, Акции, Бонусы, Кэшбэк, Благотворительность, Зеленый, Длиннопост

Всего 3 страницы из 72-х. Не много.

Теперь ты знаешь.

Кому интересно полные правила ( все 72 страницы) тут

Показать полностью 4
[моё] Сервис Приложение Служба поддержки Сбербанк Правила Деньги Картинка с текстом Pdf Услуги Приложение на Android Сайт Акции Бонусы Кэшбэк Благотворительность Зеленый Длиннопост
3
606
user9674044
4 месяца назад
Лига образования

Ответ на пост «Почему государство не спонсирует интернет-библиотеку!»⁠⁠4

То, что нет нормальной государственной всеобщей электронной библиотеки для книг это полбеды. Самое страшное, её вообще (!) нет и для полных текстов диссертаций. И там это не вопрос финансирования, а вопрос небольшого проявления и буквально изменения пары строк кода на уже существующих сайтах.

Текущая ситуация с доступом к диссертациям описывается коротко: лютый бред.

У диссертаций есть одно отличие, они относятся к неопубликованным работам, в углу каждой так и пишется "на правах рукописи". Это значит, что ни автор, ни издатель (его вообще нет) не имеют ни копейки непосредственно с диссертации. Проблем с жадными копирастами, которые душат электронные библиотеки, здесь не может быть априори.

Всеми текстами диссертаций владеет РГБ (Российская Государственная Библиотека, она же Ленинка). Все новые и очень многие старые вплоть до советских времен у них имеются в формате PDF. И... недоступны для скачивания простым смертным. Государство предоставляет единственные два варианта со всем этим богатством ознакомится:

  1. Найти и прочитать буквально штучные бумажные экземпляры диссертации.

  2. Ознакомиться с полными текстами в специальных электронных читальных залах (ЭЧЗ), физически находясь в здании специальных библиотек (которым РГБ разрешило читать в их здании диссертации) без возможности копирования текста. Ну или в самом помещении РГБ в Химках.

При этом, видимо, из-за того что ЭЧЗ размещены в кучах библиотек, система имеет некоторые дыры. Из-за чего пышным цветом распустились десятки разных коммерческих сайтов разной надежности, которые всего за круглую сумму могут продать любой PDF-файл диссертации взятый из РГБ. И это практически полностью легально, если посмотреть на правоприменительную практику. Ни один из таких сайтов до сих пор не заблокирован РКН, они все принимают плату в рублях и банки не спешат их блокировать, а авторы диссертаций могут безуспешно пытаться защищать свое право в суде. Логичный вопрос, если продавать тексты диссертаций, выходит законно можно не спрашивая автора, то и бесплатно ведь РГБ столь же легально может выложить все эти же диссертации, просто убрав "замочек" со своего сайта или открыв доступ в то же уже готовое приложение ЭЧЗ с любого компьютера, а не только сертифицированного в помещении библиотек, ведь так?

Позиция РГБ: якобы им не разрешено этого сделать, а то что из их системы PDF-файлы внаглую заимствуют и продают - их это не колышит вообще. Я бы понимал если бы кто-нибудь был в доле и имел % с продаж, но у государства текст диссертации купить нельзя и крайне маловероятно, что торгующие PDFками делятся с хоть кем-то из РГБ прибылью.

Бредового маразма прибавляет, что тексты авторефератов, в отличии от непосредственно диссертаций - совершенно общедоступны, читай-качай сколько хочешь.

Равно как и свежезащищенные диссертации полным текстом выкладываются на сайте организации, на базе которой создан диссовет. Более того, по требованию закона они висят там в виде скачиваемых .pdf не менее 10-12 месяцев. Это обязательное и правильное правило, диссертации должны быть доступны для научной общественности. Некоторые диссертации свободны для скачивания уже на протяжении многих лет после защиты на сайтах диссоветов (см., например, сайт istina МГУшный). И у диссовета формально-юридически прав на распространение PDF-файла с текстом диссертации не больше, чем у РГБ.

От этого страдают, тратят лишние человекочасы на походы в библиотеки и перепечатывание и переписывание вручную там текстов диссертаций миллионы студентов, аспирантов, научно-преподавательских работников и просто любопытных до академической науки. Они же вынуждены платить на непонятных сайтах тем, кто мошенническим путем завладел государственной библиотекой сделанной же PDF-кой, если хотят экономить свое время. При этом реальным авторам диссертаций от такой "защиты их авторского права" никакой материальной выгоды и даже некоторые убытки - их меньше читают, меньше цитируют, меньше котируют. Довольны таким могут быть только плагиаторы, но и их надежды что затрудненный доступ поможет им оставаться нераскрытыми, полузабытый, но все еще живой Диссернет тоже как-то (вопрос, как?) все полные тексты диссертаций в своем распоряжении имеет и списывальщиков до сих пор ловит.

Если у РГБ не хватит воли взять на себя ответственность и открыть академическую науку для народа, то пусть на библиотеку повлияет Министерство культуры. Если и Минкульту страшно по своей инициативе трактовать закон в соответствии со сложившейся практикой его применения, то пусть вмешается Правительство. В конце концов, если никто по вертикали так и не решится, едва ли будут существенные возражения, если обеспечить открытый удаленный доступ ко всем диссертационным исследованиям прямо, однозначно и недвусмысленно обяжет новопринятый закон, у нас же Госдума не только вопросом собак может заниматься, но и об ученых подумать можно.

Еще раз, для ЛЛ, так сказать, для того чтобы диссертации можно было читать с любого устройства с доступом в интернет уже всё готово. Диссертации уже отсканированы в формате PDF (старые) или изначально приняты в виде машиночитаемой копии от соискателей (новые) и загружены на серверы. Библиографические описания уже вывешены на сайтах РГБ и НЭБ. Нужен просто один маленький шаг: выставить разрешение, чтобы там можно было читать полные тексты, точно также, как уже можно читать авторефераты.

Ничьи законные интересы не пострадают. Удобнее станет миллионам. Почему бы не сделать? Для науки и образования же, не для праздного развлечения.

Пост без рейтинга.

Показать полностью
[моё] Библиотека Дотации Текст Диссертация RGB Российская государственная библиотека Без рейтинга Диссернет Несправедливость Политика Национальная библиотека Образование Наука Pdf Волна постов Ответ на пост Призыв
89
Jelizaveta
4 месяца назад
Программирование на python

3 библиотеки для преобразования цветных PDF в черно-белые с помощью Python: Руководство по сравнению⁠⁠

Оглавление:

  • Обзор

  • Зачем преобразовывать цветные PDF-файлы в черно-белые?

  • Библиотеки для преобразования PDF
    - Spire.PDF for Python

    - PyMuPDF

    - pdf2image

  • Сравнение библиотек

  • Заключение

3 библиотеки для преобразования цветных PDF в черно-белые с помощью Python: Руководство по сравнению Python, Pdf, Развитие, Длиннопост

Обзор

В современную цифровую эпоху файлы PDF являются стандартом для обмена документами. Преобразование цветного PDF в черно-белый может быть полезно для печати, уменьшения размера файла или улучшения читабельности.

Python предлагает несколько библиотек для работы с PDF, в том числе для преобразования цветных PDF в черно-белые. В этой статье мы рассмотрим три популярные библиотеки для этой задачи, выделим их плюсы и минусы, чтобы помочь вам выбрать лучший вариант для ваших нужд.

Зачем преобразовывать цветные PDF-файлы в черно-белые?

Прежде чем перейти к рассмотрению библиотек, необходимо понять, почему вам может понадобиться преобразовать цветной PDF в черно-белый. Вот несколько причин:

  • Экономичная печать: Черно-белая печать позволяет значительно сократить расходы на печать, особенно в условиях, когда печатаются большие объемы документов.

  • Улучшенная читаемость: Для некоторых документов черно-белая печать может повысить удобочитаемость за счет минимизации отвлекающих факторов, вызванных цветами.

  • Соответствие требованиям и архивирование: Некоторые организации требуют архивировать документы в черно-белом формате для соблюдения правовых норм.

Библиотеки для преобразования PDF

Теперь давайте обсудим три популярные библиотеки Python для преобразования цветных PDF-файлов в черно-белые: Spire.PDF for Python, PyMuPDF и pdf2image. У каждой из этих библиотек есть свои сильные и слабые стороны, которые мы подробно рассмотрим.

1. Spire.PDF for Python (коммерческая библиотека с доступной бесплатной версией)

Обзор

Spire.PDF for Python - это мощная библиотека, предназначенная для работы с PDF. Она позволяет легко конвертировать PDF в различные форматы, включая преобразование цветных PDF в черно-белые.

Установите Spire.PDF for Python:

pip install spire.pdf

Пример кода

Вот базовый пример того, как использовать Spire.PDF для преобразования цветного PDF в черно-белый:

from spire.pdf.common import *

from spire.pdf import *

input_pdf = "C:/Users/Administrator/Desktop/input.pdf"

output_pdf = "output/black_and_white.pdf"

# Загружаем PDF-документ, инициализируя класс PdfGrayConverter

converter = PdfGrayConverter(input_pdf)

# Конвертируем документ в градации серого

converter.ToGrayPdf(output_pdf)

Плюсы:

  • Сохраняет текст и векторную графику: Преобразует PDF-файлы в черно-белые без растеризации, сохраняя возможность выделения и поиска текста.

  • Высокоуровневый API: Простой в использовании API, разработанный для задач по работе с PDF.

  • Расширенные возможности: Поддержка расширенных функций PDF, таких как аннотации, формы, шифрование и многое другое.

  • Коммерческая поддержка: Профессиональная поддержка, регулярные обновления и документация.

  • Кроссплатформенность: Работает в Windows, macOS и Linux.

Минусы:

  • Стоимость: Это коммерческая библиотека, поэтому для использования в производстве необходимо приобрести лицензию.

  • Ограниченный бесплатный уровень: Бесплатная версия имеет ограничения по количеству обрабатываемых страниц.

  • Зависимость: Добавляет зависимость от сторонней библиотеки, что может быть не идеальным для проектов с открытым исходным кодом или легких проектов.

2. PyMuPDF (с открытым исходным кодом)

Обзор

PyMuPDF, также известная как Fitz, - это легкая и быстрая библиотека PDF для Python. Она поддерживает различные форматы документов и предоставляет функции для манипулирования и рендеринга PDF-файлов.

Установите PyMuPDF:

pip install pymupdf

Пример кода

Вот как можно преобразовать цветной PDF в черно-белый с помощью PyMuPDF:

import fitz  # PyMuPDF

def convert_to_black_and_white(input_pdf, output_pdf, dpi=150):

# Открываем входной PDF

pdf_document = fitz.open(input_pdf)


# Создаем новый PDF для выхода

new_pdf = fitz.open()


# Определяем матрицу для контроля разрешения (DPI)

# Стандартный DPI для get_pixmap() равен 72, поэтому мы масштабируем соответственно

zoom = dpi / 72  # Коэффициент масштабирования для желаемого DPI

matrix = fitz.Matrix(zoom, zoom)


# Проходим по каждой странице

for page_num in range(len(pdf_document)):

page = pdf_document.load_page(page_num)


# Получаем пиксмап (изображение) страницы с заданным разрешением

pix = page.get_pixmap(matrix=matrix, colorspace=fitz.csGRAY, alpha=False)


# Создаем новую страницу в новом PDF с теми же размерами

new_page = new_pdf.new_page(width=pix.width, height=pix.height)


# Вставляем изображение в градациях серого на новую страницу

new_page.insert_image(new_page.rect, pixmap=pix)


# Сохраняем новый PDF

new_pdf.save(output_pdf)

new_pdf.close()

pdf_document.close()

# Пример использования

input_pdf = "C:/Users/Administrator/Desktop/input.pdf"

output_pdf = "output/black_and_white.pdf"

convert_to_black_and_white(input_pdf, output_pdf, dpi=300)  # Устанавливаем DPI на 300 для более высокого качества

Плюсы:

  • Открытый исходный код: Свобода использования и модификации.

  • Высокая производительность: Чрезвычайно быстро и эффективно выполняет задачи по работе с PDF.

  • Сохраняет текст и векторную графику: Возможность работать с содержимым PDF напрямую без растеризации (при правильном использовании).

  • Гибкость: Поддерживает широкий спектр операций с PDF, включая рендеринг, извлечение текста и аннотирование.

  • Легкий: Минимум зависимостей, легко интегрируется в проекты.

Минусы:

  • Сложность: API может быть сложным для новичков, особенно для выполнения сложных задач.

  • Требуется растеризация для преобразования на основе изображений: Если вам нужно преобразовать страницы в черно-белый формат путем растеризации, это потребует дополнительных шагов (например, преобразования страниц в изображения и обратно).

  • Ограниченная документация: Несмотря на мощную библиотеку, документация может быть скудной для некоторых случаев использования.

3. pdf2image (с открытым исходным кодом)

Обзор

Библиотека pdf2image предназначена в первую очередь для преобразования PDF-файлов в формат изображений. Однако с помощью библиотеки Pillow вы можете преобразовать эти изображения в полутоновые и сохранить их обратно в виде PDP.

Установите pdf2image и Pillow:

pip install pdf2image pillow

Кроме того, pdf2image использует библиотеку Poppler для преобразования PDF-файлов в изображения. Poppler является отдельной системной зависимостью и должен быть установлен на вашей машине.

Пример кода

Вот пример использования pdf2image для преобразования цветного PDF в черно-белый:

from pdf2image import convert_from_path

from PIL import Image


def convert_pdf_to_bw(input_pdf, output_pdf, dpi=200, poppler_path=None):

# Шаг 1: Конвертируем страницы PDF в изображения

images = convert_from_path(input_pdf, dpi=dpi, poppler_path=poppler_path)


# Шаг 2: Конвертируем изображения в градации серого

bw_images = []

for image in images:

bw_image = image.convert("L")  # Конвертируем в градации серого

bw_images.append(bw_image)


# Шаг 3: Сохраняем изображения в градациях серого как новый PDF

bw_images[0].save(output_pdf, save_all=True, append_images=bw_images[1:])


# Пример использования

input_pdf = "C:/Users/Administrator/Desktop/input.pdf"

output_pdf = "output/black_and_white.pdf"

poppler_path = "C:/poppler-24.08.0/Library/bin"  # Требуется только если Poppler не в PATH

convert_pdf_to_bw(input_pdf, output_pdf, dpi=300, poppler_path=poppler_path)

Плюсы:

  • Простота и удобство использования: Ориентирован на преобразование PDF-файлов в изображения, что делает его удобным для работы с изображениями.

  • Открытый исходный код: Свободно используется и модифицируется.

  • Интеграция с Pillow: Работает с библиотекой Pillow для обработки изображений (например, преобразования в оттенки серого).

  • Кроссплатформенность: Работает в Windows, macOS и Linux.

Минусы:

  • Растеризация: Преобразует PDF-страницы в изображения, что означает потерю текста и векторной графики (текст больше не может быть выделен или доступен для поиска).

  • Размер файла: Выходные PDF-файлы могут стать большими, особенно при высоких значениях DPI.

  • Зависимость от Poppler: Требуется установка библиотеки poppler, что может стать препятствием для некоторых пользователей.

  • Ограниченность рабочими процессами, основанными на изображениях: Не подходит для задач, требующих работы с текстом или вектором.

Сравнение библиотек

3 библиотеки для преобразования цветных PDF в черно-белые с помощью Python: Руководство по сравнению Python, Pdf, Развитие, Длиннопост

Заключение

Выбор подходящей библиотеки для преобразования цветных PDF-файлов в черно-белые в Python зависит от ваших конкретных требований, включая сложность PDF-файлов, потребности в производительности и дополнительные возможности.

Взвесив все плюсы и минусы каждой из рассмотренных библиотек, вы сможете принять взвешенное решение, которое подойдет именно вашему проекту. Независимо от того, являетесь ли вы разработчиком, аналитиком данных или бизнес-профессионалом, эти инструменты помогут вам эффективно управлять PDF-документами.

Показать полностью 2
Python Pdf Развитие Длиннопост
2
Вопрос из ленты «Эксперты»
Аноним
Аноним
4 месяца назад

Программа для чтения pdf на компьютере⁠⁠

Здравствуйте. Начал читать большую книгу в формате pdf и понял, что в браузере это не так удобно: не запоминает место остановки, нет каких-то закладок и/или пометок и так далее. Ещё было бы неплохо какой-то переводчик встроенный или возможность загрузить дополнение такое, так как книга на английском и некоторые моменты приходится переводить отдельно в браузере. Подскажите, пожалуйста такую программу.

Вопрос Спроси Пикабу Pdf Текст
7
tablepedia
4 месяца назад

Продолжение поста «Концепция сайта-десятистраничника с PDF файлами»⁠⁠9

Я обновил сайт https://www.tablepedia.com/

Закончил работу над проектом "Генерация HTML файлов с помощью табличного редактора".
Теперь внутри архива сайта, который можно скачать по адресу https://www.tablepedia.com/tablepedia.com-2025_03_01.zip , есть табличный файл для Excel (XLS), а также ODS, который используется в OpenOffice.org Calc и других программах электронных таблиц.

Объясняю на скриншотах, как создаются HTML файлы внутри tablepedia.xls , который находится внутри ZIP архива:

Продолжение поста «Концепция сайта-десятистраничника с PDF файлами» Сайт, Программа, Гайд, Приложение, Инди, Разработка, Тестирование, Pdf, Смартфон, Android, Концепция, Исследования, Вопрос, HTML, Zip файл, Отзыв, Лендинг, Сайт визитка, Архив, СССР, Ответ на пост, Длиннопост, Волна постов

Рис. 1. Столбцы L-Q внутри файла tablepedia.xls задают ключевые слова, а также теги HTML, которыми оформляются ячейки из столбцов C-J (см. рис. 2).

Продолжение поста «Концепция сайта-десятистраничника с PDF файлами» Сайт, Программа, Гайд, Приложение, Инди, Разработка, Тестирование, Pdf, Смартфон, Android, Концепция, Исследования, Вопрос, HTML, Zip файл, Отзыв, Лендинг, Сайт визитка, Архив, СССР, Ответ на пост, Длиннопост, Волна постов

Рис. 2. В столбцах C-J определяется основной текст HTML файла, в столбце B-кл. слово, а в столбце K - текст, оформленный тегами. Таким образом, для создания файла archive.html , Нужно выделить содержимое столбца K и вставить внутрь файла archive.html

Продолжение поста «Концепция сайта-десятистраничника с PDF файлами» Сайт, Программа, Гайд, Приложение, Инди, Разработка, Тестирование, Pdf, Смартфон, Android, Концепция, Исследования, Вопрос, HTML, Zip файл, Отзыв, Лендинг, Сайт визитка, Архив, СССР, Ответ на пост, Длиннопост, Волна постов

Рис. 3. В красной рамке обведён файл https://www.tablepedia.com/tablepedia.com-2025_03_01.zip , который можно скачать из https://tablepedia.com/archive.html

Если при создании HTML страниц из Excel или ods файла возникли вопросы, напишите их, пожалуйста.

Показать полностью 3
[моё] Сайт Программа Гайд Приложение Инди Разработка Тестирование Pdf Смартфон Android Концепция Исследования Вопрос HTML Zip файл Отзыв Лендинг Сайт визитка Архив СССР Ответ на пост Длиннопост Волна постов
0
tablepedia
5 месяцев назад

Продолжение поста «Концепция сайта-десятистраничника с PDF файлами»⁠⁠9

Я обновил сайт https://www.tablepedia.com/

Заканчиваю работу над проектом "Генерация HTML файлов с помощью табличного редактора".
До 1 марта будут созданы табличный файлы для Excel (XLS), а также ODS, который используется в OpenOffice.org Calc и других программах электронных таблиц.

Сайт (в архиве) можно скачать по адресу https://www.tablepedia.com/tablepedia.com-2025_02_23.zip

Прилагаю скриншоты трёх страниц сайта:

Продолжение поста «Концепция сайта-десятистраничника с PDF файлами» Сайт, Программа, Гайд, Приложение, Инди, Разработка, Тестирование, Pdf, Смартфон, Android, Концепция, Исследования, Вопрос, HTML, Zip файл, Отзыв, Лендинг, Сайт визитка, Архив, СССР, Ответ на пост, Длиннопост, Волна постов

Главная страница - https://tablepedia.com/

Продолжение поста «Концепция сайта-десятистраничника с PDF файлами» Сайт, Программа, Гайд, Приложение, Инди, Разработка, Тестирование, Pdf, Смартфон, Android, Концепция, Исследования, Вопрос, HTML, Zip файл, Отзыв, Лендинг, Сайт визитка, Архив, СССР, Ответ на пост, Длиннопост, Волна постов

Биографии - https://tablepedia.com/bio.html

Продолжение поста «Концепция сайта-десятистраничника с PDF файлами» Сайт, Программа, Гайд, Приложение, Инди, Разработка, Тестирование, Pdf, Смартфон, Android, Концепция, Исследования, Вопрос, HTML, Zip файл, Отзыв, Лендинг, Сайт визитка, Архив, СССР, Ответ на пост, Длиннопост, Волна постов

Архив - https://tablepedia.com/archive.html

Показать полностью 3
[моё] Сайт Программа Гайд Приложение Инди Разработка Тестирование Pdf Смартфон Android Концепция Исследования Вопрос HTML Zip файл Отзыв Лендинг Сайт визитка Архив СССР Ответ на пост Длиннопост Волна постов
1
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии